标注 | 说明 | 数据类型 |
预测类型 | 指定要使用的操作模式。 可以运行此工具来训练模型,以仅评估性能、预测要素或创建预测表面。
| String |
输入训练要素 | 要素类,包含要预测的变量参数值以及字段中的解释训练变量(可选)。 | Feature Layer |
要预测的变量 (可选) | 输入训练要素参数值中的变量,其中包含要用于训练模型的值。 该字段包含将用于在未知位置进行预测的变量的已知(训练)值。 | Field |
将变量视为分类变量 (可选) | 指定要预测的变量值是否为类别变量。
| Boolean |
解释训练变量 (可选) | 表示解释变量的字段列表,可帮助预测要预测的变量值的值或类别。 对于任何表示类或类别(例如土地覆被或存在/不存在)的变量,请选中类别复选框。 | Value Table |
解释训练距离要素 (可选) | 包含解释训练距离要素的要素图层。 通过计算从提供的要素到输入训练要素值的距离,将自动创建解释变量。 将计算从输入训练要素值中的每个要素到最近的解释训练距离要素值的距离。 如果输入解释训练距离要素值为面要素或线要素,则距离属性将计算为要素对的最近线段之间的距离。 | Feature Layer |
解释训练栅格 (可选) | 从栅格中提取的解释训练变量。 解释训练变量将通过提取栅格像元值自动创建。 对于输入训练要素参数中的每个要素,将在此确切位置处提取栅格像元的值。 提取连续栅格的栅格值时,将使用双线性栅格重采样。 从类别栅格中提取栅格值时,将使用最邻近分配法。 对于任何表示类或类别(例如土地覆被或存在/不存在)的栅格,请选中类别复选框。 | Value Table |
输入预测要素 (可选) | 表示将进行预测的位置的要素类。 此要素类还必须包含作为字段提供的任何解释变量,这些字段对应于训练数据中使用的字段。 | Feature Layer |
输出预测要素 (可选) | 包含预测结果的输出要素类。 | Feature Class |
输出预测表面 (可选) | 包含预测结果的输出栅格。 默认像元大小将为栅格输入的最大像元大小。 要设置其他像元大小,请使用像元大小环境设置。 | Raster Dataset |
匹配解释变量 (可选) | 根据右侧输入训练要素参数以及左侧输入预测要素参数中其对应字段指定的解释变量值的列表。 | Value Table |
匹配距离要素 (可选) | 根据右侧输入训练要素参数以及左侧输入预测要素参数中其对应要素指定的解释距离要素值的列表。 如果用于训练的要素位于不同的研究区域或时间段,则可以提供更适用于输入预测要素参数的解释距离要素值。 | Value Table |
匹配解释栅格 (可选) | 根据右侧输入训练要素参数以及左侧输入预测要素参数或预测表面参数中其对应栅格指定的解释栅格值的列表。 如果用于训练的要素位于不同的研究区域或时间段,则可以提供更适用于输入预测要素参数的解释栅格值。 | Value Table |
输出训练要素 (可选) | 用于训练(包括采样栅格值和距离计算)的解释变量、观察的要预测的变量字段,以及可用于进一步评估训练模型性能的相应预测。 | Feature Class |
输出变量重要性表格 (可选) | 将包含模型中使用的每个解释变量重要性的描述信息的表格。 解释变量包含用于创建模型的字段、距离要素和栅格。 如果模型类型参数值为梯度提升,则将通过增益、权重和覆盖来衡量重要性,并且该表将包含这些字段。 如果验证的运行次数参数值为 1,则输出将包含一个条形图;如果该值大于 1,则输出将包含一个箱线图,其中显示了解释变量的重要性。 | Table |
将面转换为用于训练的栅格分辨率 (可选) | 如果输入训练要素值为面要素(要预测的变量为类别变量),并且仅提供了解释训练栅格值,则训练模型时需要指定面的处理方式。
| Boolean |
树数 (可选) | 将在基于森林的模型和梯度提升模型中创建的树数。 默认值为 100。 如果模型类型参数值为基于森林,则增大树数通常将产生更加精确的模型预测;但是,将增加模型计算的时间。 如果模型类型参数值为梯度提升,则增大树数可能会产生更加精确的模型预测;但是,它们也可能导致训练数据过度拟合。 要避免过度拟合数据,请提供最大树深、L2 正则化 (Lambda)、用于分割的最小损失减少 (Gamma) 和学习率 (Eta) 参数的值。 | Long |
最小叶子大小 (可选) | 保留叶子(即未进一步进行分割的树上的终端节点)所需的最小观测值数。 回归的默认最小值为 5,分类的默认值为 1。 对于非常大的数据,增大这些数值将减少工具的运行时间。 | Long |
最大树深 (可选) | 对树进行的最大分割数。 如果使用较大的最大深度,则将创建更多分割,这可能会增大过度拟合模型的可能性。 如果模型类型参数值为基于森林,则默认值由数据驱动,并且取决于所创建的树数以及所包含的变量数。 如果模型类型参数值为梯度提升,则默认值为 6。 | Long |
每棵树的可用数据 (%) (可选) | 用于每棵决策树的输入训练要素值的百分比。 默认值为 100% 的数据。 将根据指定数据的三分之二随机获取每棵树的样本。 可以使用可用训练数据的随机样本或子集(大约三分之二)来创建森林中的每棵决策树。 针对每棵决策树使用较低百分比的输入数据可以减少适用于大型数据集的工具的运行时间。 | Long |
随机采样的变量数 (可选) | 用于创建每棵决策树的解释变量数。 将使用指定解释变量的随机子集来创建基于森林的模型和梯度提升模型中的每个决策树。 增大每棵决策树中使用的变量数将增大过度拟合模型的可能性,尤其是存在一个或多个主导变量时更是如此。 如果要预测的变量值为类别变量,则使用解释变量(组合字段、距离和栅格)总数的平方根;如果要预测的变量值为数值变量,则将解释变量(组合字段、距离和栅格)的总数除以 3。 | Long |
针对验证而排除的训练数据 (%) (可选) | 要保留为验证测试数据集的输入训练要素值的百分比(介于 10% 和 50% 之间)。 将在没有此随机数据子集的情况下对模型进行训练,并将这些要素的模型预测值与观测值进行比较。 默认值为 10%。 | Double |
输出分类性能表(混淆矩阵) (可选) | 一个混淆矩阵,其中汇总了根据验证数据创建的模型的性能。 该矩阵将对验证数据的模型预测类别与实际类别进行比较。 此表可用于计算输出消息中未包含的其他诊断。 当要预测的变量值为类别变量并且选中视为类别变量参数时,此参数可用。 | Table |
输出验证表 (可选) | 如果要预测的变量值不是类别变量,则该表包含每个模型的 R2;如果该值为类别变量,则该表包含每个模型的精度。 此表包括精度或 R2 值分布的条形图。 此分布可用于评估模型的稳定性。 当验证的运行次数值大于 2 时,此参数可用。 | Table |
补偿稀疏类别 (可选) | 指定训练数据集中的每个类别(无论其频率如何)都将在每棵树中表示。 当模型类型参数值为基于森林时,此参数可用。
| Boolean |
验证的运行次数 (可选) | 工具迭代次数。 可以使用输出验证表参数显示所有模型的 R 方值(连续)或精度(分类)的分布。 如果预测类型参数值为预测栅格或预测要素,则将使用生成中值 R 方值或精度的模型进行预测。 使用中值有助于确保预测的稳定性。 | Long |
计算不确定性 (可选) | 指定在训练、预测要素或预测栅格时是否计算预测不确定性。 当模型类型参数值为基于森林时,此参数可用。
| Boolean |
输出已训练模型文件 (可选) | 将保存训练后模型的输出模型文件,稍后可用于预测。 | File |
模型类型 (可选) | 指定将用于创建模型的方法。
| String |
L2 正则化 (Lambda) (可选) | 正则化项,可降低模型对单个要素的敏感度。 增加该值将使模型更加保守,防止过度拟合训练数据。 如果该值为 0,模型就会变成传统的梯度提升模型。 默认值为 1。 当模型类型参数值为梯度提升时,此参数可用。 | Double |
用于分割的最小损失减少 (Gamma) (可选) | 分割树木所需的最小损失减少量阈值。 评估潜在分割的损失减少情况。 如果候选分割的损失减少量高于该阈值,则将进行分割。 较高的阈值可以避免过度拟合,并产生具有较少分区的更加保守的模型。 默认值为 0。 当模型类型参数值为梯度提升时,此参数可用。 | Double |
学习率 (Eta) (可选) | 该值可减少每棵树对最终预测的贡献。 该值应大于 0 且小于或等于 1。 较低的学习率可防止模型过度拟合;但是,它可能需要较长的计算时间。 默认值为 0.3。 当模型类型参数值为梯度提升时,此参数可用。 | Double |
用于搜索分割的最大立方图格数 (可选) | 将训练数据划分到的立方图格数以搜索最佳分割点。 该值不能为 1。 默认值为 0,对应于使用贪婪算法。 贪婪算法将在每个数据点处创建候选分割。 不建议提供过少的立方图格进行搜索,因为这将导致模型预测性能较差。 当模型类型参数值为梯度提升时,此参数可用。 | Long |
优化参数 (可选) | 指定是否将使用优化方法以查找实现最佳模型性能的超参数集。
| Boolean |
优化方法 (可选) | 指定将用于选择和测试搜索点以查找最佳超参数集的优化方法。 搜索点为模型参数设置参数指定的搜索空间内的超参数组合。 当选中优化参数参数时,此选项可用。
| String |
优化目标(目标) (可选) | 指定将最小化或最大化以查找最佳超参数集的目标函数或值。
| String |
参数集的运行次数 (可选) | 将进行测试的模型参数设置参数指定的搜索空间内的搜索点数。 当优化方法值为随机搜索(快速)或随机搜索(稳健)时,此参数可用。 | Long |
模型参数设置 (可选) | 超参数及其搜索空间的列表。 通过提供下限、上限和区间来自定义每个超参数的搜索空间。 下限和上限将指定超参数的可能值范围。 以下是每个超参数的有效值范围:
| Value Table |
输出参数调整表格 (可选) | 一个表格,其中包含每次优化尝试的参数设置和目标值。 输出将包含所有尝试及其目标值的图表。 当选中优化参数时,此选项可用。 | Table |
包括所有预测概率 (可选) | 对于要预测的分类变量,指定是预测分类变量的每个类别的概率还是仅预测记录类别的概率。 例如,如果分类变量具有类别 A、B 和 C,并且第一条记录具有类别 B,则使用此参数指定是预测记录的类别 A、B 和 C 的概率还是仅预测类别 B 的概率。
| Boolean |
派生输出
标注 | 说明 | 数据类型 |
输出不确定性栅格图层 | 选中计算不确定性参数时,工具将计算要预测的变量参数的每个预测值周围的 90% 预测区间。 | Raster Layer |