使用交叉验证评估预测值工具执行 K 折交叉验证,以通过多重验证来评估模型对未见过数据的预测效果。 该工具将输入数据集分割为若干组,保留其中一组作为测试集,并使用剩余组训练模型,计算评估指标,以评估模型对保留组中的值进行预测的效果。 之后,对每个组重复此操作。 若需了解模型对新地理空间区域内的未知数据的预测能力,可以随机选择组(随机 k 折)或对组进行空间聚类(空间 k 折)。 该工具还具有数据平衡选项,可帮助对稀有事件进行分类。 该工具可与预测工具一起使用,如基于森林的增强分类与回归、广义线性回归和仅存在预测(最大熵模型)。 与预测工具中提供的验证方法相比,该方法可为评估模型性能提供更出色的验证方式。
K 折交叉验证
使用交叉验证评估预测值工具,评估模型通过多重验证预测从未见过的数据的效果。 在 K 折交叉验证中,输入分析结果要素首先将分割成多个(k 个)大小相同或类似的组(折)。 在运行验证时,将其中一个组保留为测试集,而使用其余组训练模型。 然后使用该模型预测测试集,并生成统计指标以评估模型的性能。 然后,该工具会迭代地将每个组用作测试集,执行验证运行。
K 折交叉验证会多次重复验证过程,并使用不同的测试集对模型性能进行更全面的评估。 虽然用单个训练集 - 测试集分割进行简单验证非常直观且有用,但 K 折交叉验证能够提供更多有用信息。 这些预测工具(如基于森林的增强分类与回归和广义线性回归)均提供了一种验证步骤,然而 K 折交叉验证更优,因为它会将数据重复分割成不同的训练集和测试集。 这可使您更可靠地评估模型预测新数据时的性能,并有助于预防在训练期间出现的潜在过度拟合。
分组要素
K 折交叉验证可将分析要素分割成若干组。 组数参数用于控制所创建的组数 (k)。 该参数值的范围为 2 至数据集中的要素数。 评估类型参数可确定组中的要素是随机选择,还是空间聚类的。 在使用分类变量时,并非所有分类等级都会被均等地表示。 有些分类可能很少出现,而其他分类则比较常见。
随机 K 折
随机 K 折交叉验证随机将分析结果要素分成 k 个组。 每个组包含相同或类似数目的要素。
空间 K 折
空间 K 折可确保每个训练组和测试组在空间上彼此分离。 空间组使用 k 均值聚类创建。 它获取每个要素的坐标,并创建 k 个按空间划分的组。 但是,这些组在各个验证集中的要素数目可能不同。 空间 K 折验证有助于理解模型对新地理空间区域内的未知数据的预测能力。
留一法交叉验证
如果组数与输入要素数一致,则会执行留一法交叉验证 (LOOCV)。例如,如果广义线性回归分析的输出包含 100 个要素作为分析结果要素,则组数参数设置为 100。 该模型将在 99 个要素上进行训练,然后在剩余的 1 个要素上进行预测和评估。 该过程会重复 100 次。 LOOCV 的优势在于,它能够提供稳健且无偏的误差指标度量,例如 MSE、RMSE 和 MAPE。 然而,它不适用于评估 R2 之类的全局指标,因为在样本量为 1 的情况下无法计算此类指标,而且对于非常小的数据集来说,它也不是可靠的指标。
评估空间 k 折结果
针对空间交叉验证的评估指标受所选组数影响。 用作验证集的空间连续聚类大小越小,则评估指标就越接近留一法交叉验证的指标。 较小的空间连续验证集可能具有较小的空间外推,因为它在训练集中具有更近的邻域。 另一方面,无论选择多少个组,随机交叉验证指标往往会保持稳定,并与留一法交叉验证的指标类似或同等。 因此,选择用于空间交叉验证的组数是一个需要考虑的关键参数。 例如,如果您使用美国 50 个州中的 49 个州的县数据来训练模型,并计划对第 50 个州进行预测,那么合适的组数可能是 49。 此方法可确保每个折代表一个假设的州,从而使最终指标能够准确反映模型在预测新州时的性能。
比较评估类型
一般来说,相比于随机交叉验证,空间交叉验证指标的评估结果往往较差。 例如,随机交叉验证在各个折中的平均准确率可能会达到 90%,而空间交叉验证的平均准确率可能较低,仅为 70% 左右。 此差异在预期之内,因为随机交叉验证受益于空间自相关。 在随机验证集中,要素通常在对应的训练集中具有与其高度相似的空间邻域,尤其是当自相关性很高时。 相比之下,空间验证子集缺乏这种优势,从而导致一定程度的空间外推。 在这种情况下,预测是在模型尚未经过训练的新空间区域进行的。 即使指标看起来更优,使用随机交叉验证来评估模型也不会提升底层模型的性能。 相反,它高估了模型在使用新区域的真实世界场景中的表现。
评估交叉验证结果
关于交叉验证和其他模型验证流程的一个常见误解是:认为它们的目的是确定模型是否适用于数据。 对于从现实世界收集的数据而言,模型永远不可能完全正确,但它们无需完全正确,也能为决策提供可操作信息。 交叉验证统计是量化模型可用性的手段,而不是确定模型是否正确的清单。 借助许多可用的统计(单个值、汇总统计数据和图表),可以密切关注相关情况,并发现其中的问题,以及与理想值和模式的偏差。 模型永远不可能是完美的,因为模型永远无法完全精准地表示数据。
在查看交叉验证结果时,请务必记住分析的目标和预期。 例如,假设您以摄氏度为单位预测温度,以期在热浪期间提供公共健康卫生建议。 在这种场景中,您应该如何解释平均误差值 0.1? 从字面上理解,这表示该模型具有正偏差,且往往对温度值的预测值过高。 然而,平均偏差仅为 0.1 度,这表示可能与公共卫生政策的相关性不是很大。 另一方面,均方根误差值为 10 度表示:平均而言,预测值与实际温度相差 10 度。 该模型的准确度可能太差,因此该模型的可用性不大,因为相差 10 度可能会引发您给出截然不同的公共卫生建议。
输出
该工具将生成地理处理消息和两个输出:要素类和表。 要素类记录了训练数据集以及训练数据集中每个要素的训练和预测结果。 表记录了每次验证运行的评估指标。 该工具还会创建许多有用的地理处理消息,包括样本外诊断统计数据平均值表格。
地理处理消息
可将鼠标悬停在进度条上、单击弹出按钮或展开地理处理窗格中的消息部分来访问消息。 您还可以在地理处理历史记录中查看该工具上一次运行的信息。 信息包括“样本外诊断统计数据平均值”表。
“样本外诊断统计数据平均值”表
将在“样本外诊断统计数据平均值”表中提供分析诊断。
“样本外诊断统计数据平均值”表包含以下诊断:
- R 平方 - R 平方可用于检验拟合度。 回归模型所涵盖的因变量方差的比例。 数值从 0.0 到 1.0 不等,数值越大表示模型越好。 与训练数据的 R 平方值不同,样本外 R 平方在包含其他解释变量时会减小,因此该指标可以有效确定包含新的解释变量是否有效。 当组包含的要素数少于 3 个时,将不会计算 R 平方。
- 校正 R 平方 - 校正 R 平方与 R 平方类似,但其会对包含附加解释变量的情况施加惩罚,以便优先考虑解释变量较少的模型。 校正 R 平方值的计算将按分子和分母的自由度对它们进行归一化。 进行此调整时,则无法将该值解释为解释方差的比例。 仅针对广义线性回归模型计算此指标。 当组包含的要素数少于 3 个时,将不计算校正 R 平方。
- 均方根误差 (RMSE) - RMSE 是均方误差 (MSE) 的平方根,即实际值与预测值之间平均平方差的平方根。 与 MAE(平均绝对误差)一样,RMSE 表示以相关变量为单位的平均模型预测误差;但 RMSE 对较大的误差和异常值更为敏感。 此统计数据通常用于衡量预测精度。 RMSE 以相关变量为单位,因此无法在不同模型之间进行比较。
- 平均绝对误差 (MAE) - MAE 是相关变量参数实际值与预测值绝对差值的平均值。 数值为 0 表示模型正确预测了每个观测值。 MAE 以相关变量为单位,因此无法在不同模型之间进行比较。
- 平均绝对百分比误差 (MAPE) - MAPE 与 MAE 类似,表示原始值与预测值之间的差值。 不过,MAE 表示的是原始单位的差异,而 MAPE 表示的是百分比差异。 MAPE 是一种相对误差,因此在比较不同模型时,它是一种更好的诊断方法。 由于 MAPE 的计算方法,如果任何原始值为 0,则无法使用 MAPE。 如果原始值接近 0,则 MAPE 将达到无穷大,并在表格中显示为 Null。 MAPE 的另一个局限性在于其具有尺度依赖性。 例如,如果有两种情况,实际值和预测值的差值相同,那么实际值较小的情况对 MAPE 的贡献较大。
其他输出
此工具也会生成一个表和一个输出要素类。
输出表
输出验证表包含地理处理消息中的相同诊断信息:校正 R 平方、R 平方、均方根误差 (RMSE)、平均绝对百分比误差 (MAPE) 以及平均绝对误差 (MAE)。 该表显示了每个 K 折的统计数据。
输出要素
输出要素中的字段包括在模型中使用的解释训练变量、要预测的变量、平均训练预测值、平均训练残差、样本外预测值以及样本外残差。 可以使用平均训练预测值、平均训练残差、样本外预测值、样本外残差来评估该字段值的预测精度。
最佳做法和限制
以下是使用此工具时的最佳做法和限制:
- 在参数调整和模型优化过程中使用此工具。 例如,您可以指定基于森林的增强分类与回归工具中的参数设置,并将输出训练数据集输入到使用交叉验证评估预测值工具中,借此评估所训练的模型。 有了交叉验证结果,您可以返回到基于森林的增强分类与回归工具,以微调某些参数。 可重复执行这两个步骤,直到找到适合您模型的交叉验证指标。 您可以使用完整的训练数据集或平衡数据集来准备最终模型,然后预测未知的新数据。
- 需考虑的是哪种评估指标对您的使用案例最重要。 请考虑以下方法:
- 对于分类 - 如果您要预测一个非常重要的罕见事件,则可优化该类别的敏感度。 如果您拥有多个类别,并希望模型在所有类别中都能做出最佳预测,则可考虑 MCC 或整体 F1 指标。 准确度并非总是最佳指标,尤其是涉及稀有类别时。 例如,如果 99% 的数据属于类别 A,1% 的数据属于类别 B,则模型如果将每个要素都预测为类别 A,其准确率可达 99%,但对类别 B 的敏感度为 0%。
- 对于回归 - 如果您对模型与数据的整体拟合度感兴趣,则可能需要优化 R 平方 (R-squred)。 如果对模型的个别误差感兴趣,则可能需要优化 MAPE 或 MAE。 如果对个别误差和最优化极端误差感兴趣,则可能需要基于 RMSE 进行优化。
- 从随机分割获取最优指标的超级参数,可能不同于为空间分割提供最佳指标的超级参数。 如果您的目标是预测新的空间区域,请使用空间分割进行评估。 尝试使用不同的模型和参数,并将它们输入到工具中,以确定哪种组合会在空间交叉验证下产生最佳平均指标。
- 当验证数据集少于 3 个时,将不计算 R 平方和校正 R 平方。 这意味着如果组数大于要素数的三分之一,将不计算它们。
- 如果所有预测输出均为同一值,则可能不计算马修斯相关系数。
- 数据平衡可能有助于改善对稀有事件进行分类时的模型精度。