“探索性回归”的工作原理

获得一个正确指定的 OLS 模型可能比较困难,尤其是当存在许多您认为可能是您尝试建模的变量(因变量)的重要促成因素的潜在解释变量时更是如此。 探索性回归工具可以提供帮助。 它是一种数据挖掘工具,将尝试解释变量的所有可能组合,以查看通过所有必需 OLS 诊断的模型。 通过评估候选解释变量的所有可能组合,可以显著提高找到用于求解问题或者回答问题的最佳模型的机会。 虽然探索性回归类似于“逐步回归”(可在许多统计软件包中找到),但探索性回归不仅会寻找具有较高校正 R2 值的模型,而且会寻找满足 OLS 方法的所有要求和假设的模型。

使用“探索性回归”工具

在运行探索性回归工具时,可以指定每个模型应包含的解释变量的最小和最大数量,以及校正 R2 的阈值条件、系数 p 值、方差膨胀因子 (VIF) 值、Jarque-Bera p 值和空间自相关 p 值。 对于至少具有解释变量的最小数量参数值且不超过解释变量的最大数量参数值的模型,“探索性回归”将对模型的候选解释变量参数值的每个可能组合运行 OLS,模型。 将根据搜索条件参数值对其尝试的每个模型进行评估。 当它找到一个模型时:

  • 超过指定的校正 R2 阈值
  • 使用系数 p 值,适用于所有解释变量,小于指定值
  • 使用系数 VIF 值,适用于所有解释变量,小于指定阈值
  • 返回大于指定值的 Jarque-Bera p 值

然后,它将对该模型的残差运行空间自相关 (Global Moran's I) 工具。 如果空间自相关 p 值也大于您在工具的搜索条件中指定的值(可接受的最小空间自相关 p 值参数值),则该模型将列为合格模型。 探索性回归工具还将使用“空间自相关”工具对具有 3 个最高校正 R2 结果的模型测试回归残差。

合格模型部分中列出的模型符合指定的搜索条件。 如果您采用最大 p 值系数边界最大 VIF 值边界可接受的最小 Jarque Bera p 值可接受的最小空间自相关 p 值参数值的默认值,则通过模型也将为正确指定的 OLS 模型。 正确指定的 OLS 模型具有以下属性:

  • 所有系数均具有统计显著性的解释变量
  • 反映每个解释变量和因变量之间预期的或至少合理的关系的系数
  • 表示您正在尝试建模的不同方面的解释变量(没有一个冗余;较小的 VIF 值小于 7.5)
  • 正态分布的残差指示模型没有偏差(Jarque-Bera p 值不具有统计显著性)
  • 在预测上方和下方随机分布,指示模型残差呈正态分布(空间自相关 p 值不具有统计显著性)

如果指定输出结果表参数值,则会将符合最大 p 值系数边界参数值且所有解释变量符合最大系数 p 值边界参数值的模型写入表。 如果您希望检查的不仅仅是文本报告文件中包含的相应模型,则此表将非常有用。

一些注意事项

请注意,与使用诸如“逐步回归”等方法类似,使用探索性回归工具也存在争议。 虽然有点夸张,但基本上存在两种思想流派:科学方法观点和数据挖掘者的观点。

科学方法观点

科学方法的强烈支持者可能会反对探索性回归方法。 从他们的角度来看,您应该在探索数据之前将假设形式化,从而避免创建仅适合您的数据,但不反映更广泛过程的模型。 构建过度拟合某个特定数据集的模型可能与其他数据集无关,事实上,有时,即使添加新观测值也会导致过度拟合的模型变得不稳定(性能可能下降,或者解释变量系数显著性可能减弱)。 当模型不可靠时,即使对于新的观测值,它也肯定未达到您正在尝试建模的关键过程。

此外,请意识到回归统计基于概率论,当运行数千个模型时,将显著增加不恰当地拒绝零假设(1 类统计误差)的机会。 例如,当您选择 95% 的置信度时,您正在接受特定风险;如果您可以对数据重采样 100 次,则概率指示在 100 个样本中,多达 5 个样本会产生误报。 将针对每个系数计算 P 值;零假设是系数实际上为零,因此,与该系数相关联的解释变量对模型没有帮助。 概率论表明,在 100 个样本中,多达 5 个样本的 p 值可能具有统计显著性,只是因为您恰好选择了错误地支持该结论的观测值。 如果仅运行一个模型,则 95% 的置信度似乎比较保守。 如果增加尝试的模型数量,则将削弱从结果中得出结论的能力。 探索性回归工具可以在短短几分钟内尝试数千个模型。 将在输出报表文件参数值的全局摘要部分中报告尝试的模型数量。

数据挖掘者的观点

另一方面,数据挖掘学派的研究人员可能会觉得,无法先验地知道促成任何给定现实结果的所有因素。 通常,我们尝试回答的问题非常复杂,并且关于您的特定主题的理论可能不存在,或者可能已过时。 数据挖掘者强烈支持归纳分析,例如探索性回归提供的分析。 他们鼓励跳出框框思考,并使用探索性回归方法进行假设开发。

建议

探索性回归工具是一种有价值的数据挖掘工具,可以帮助您找到正确指定的 OLS 模型。 建议您始终选择由理论、专家指导和常识支持的候选解释性回归变量。 可以使用部分数据校准回归模型,然后使用其余数据对其进行验证,或者在其他数据集上验证您的模型。 如果您确实计划从您的结果中得出推论,则您还应该执行敏感性分析,例如自举。

对于仅根据校正 R2 值评估模型性能的其他探索性方法,使用探索性回归工具比使用这些探索性方法确实更具优势。 探索性回归工具正在寻找通过上述所有 OLS 诊断的模型。