标注 | 说明 | 数据类型 |
预测类型
| 指定工具的操作模式。可以运行此工具来训练模型,以仅评估性能、预测要素或创建预测表面。
| String |
输入训练要素
| 包含要预测的变量参数以及解释训练变量字段的图层。 | Record Set |
输出要素名称
(可选) | 输出要素图层名称。 | String |
要预测的变量
(可选) | 输入训练要素参数中的变量,其中包含要用于训练模型的值。该字段包含将用于在未知位置进行预测的变量的已知(训练)值。 | Field |
将变量视为分类变量 (可选) | 指定要预测的变量是否为分类变量。
| Boolean |
解释变量
(可选) | 表示解释变量的字段列表,可帮助预测要预测的变量的值或类别。对于任何表示类或类别(例如土地覆被或存在/不存在)的变量,请选中分类复选框。 | Value Table |
创建变量重要性表
(可选) | 指定输出表是否包含描述在模型中使用的每个解释变量的重要性的信息。
| Boolean |
输入预测要素 (可选) | 表示将进行预测的位置的要素图层。此要素图层还必须包含作为字段提供的任何解释变量,这些字段对应于训练数据中使用的字段。 | Record Set |
匹配解释变量
(可选) | 根据右侧输入训练要素以及左侧输入预测要素中其对应字段指定的解释变量列表。 | Value Table |
树数
(可选) | 要在森林模型中创建的树的数量。增大树数通常将产生更加精确的模型预测,但是将增加模型计算的时间。默认树数为 100。 | Long |
最小叶子大小
(可选) | 保留叶子(即未进一步进行分割的树上的终端节点)所需的最小观测值数。回归的默认最小值为 5,分类的默认值为 1。对于非常大的数据,增大这些数值将减少工具的运行时间。 | Long |
最大树深
(可选) | 对树进行的最大分割数。如果使用较大的最大深度,则将创建更多分割,这可能会增大过度拟合模型的可能性。默认值由数据驱动,并且取决于所创建的树数以及所包含的变量数。 | Long |
每棵树的可用数据 (%)
(可选) | 用于每棵决策树的输入训练要素的百分比。默认值为 100% 的数据。将根据指定数据的三分之二随机获取每棵树的样本。 可以使用可用训练数据的随机样本或子集(大约三分之二)来创建森林中的每棵决策树。针对每棵决策树使用较低百分比的输入数据可以提高适用于大型数据集的工具的速度。 | Long |
随机采样变量数
(可选) | 用于创建每棵决策树的解释变量数。 森林中的每个决策树都是使用指定解释变量的随机子集创建的。增大每棵决策树中使用的变量数将增大过度拟合模型的可能性,尤其是存在一个或多个主导变量时更是如此。常用方法是:如果要预测的变量为数值,则使用解释变量总数的平方根;如果要预测的变量为分类变量,则将解释变量的总数除以 3。 | Long |
针对验证而排除的训练数据 (%) (可选) | 要保留为验证测试数据集的输入训练要素的百分比(介于 10% 和 50% 之间)。将在没有此随机数据子集的情况下对模型进行训练,并将这些要素的观测值与预测值进行比较。默认值为 10%。 | Long |
Data Store
(可选) | 指定将用于保存输出的 ArcGIS Data Store。默认设置为时空大数据存储。在时空大数据存储中存储的所有结果都将存储在 WGS84 中。在关系数据存储中存储的结果都将保持各自的坐标系。
| String |
派生输出
标注 | 说明 | 数据类型 |
输出训练要素 | 包含用于训练的输入变量、观察的要预测的变量参数,以及可用于进一步评估模型性能的相应预测的输出。 | 记录集 |
变量重要性表 | 包含用于描述要在所创建模型中使用的每个解释变量的重要性的信息的表。 | 记录集 |
输出预测要素 | 将接收模型预测的图层。 | 记录集 |