降维的工作原理

降维工具使用主成分分析 (PCA) 或降级线性判别分析 (LDA) 将尽可能高的方差量聚合成更少的分量,来降低连续变量集的维数。 变量指定为输入表或要素图层中的字段,表示新变量的新字段保存在输出表或要素类中。 新字段数将小于原始变量数,同时保持所有原始变量中的方差数量尽可能多。

降维通常用于探索变量之间的多元关系,以及降低机器学习算法的计算成本,其中所需的内存和处理时间取决于数据的维数。 在分析或机器学习算法中使用分量替代原始数据,通常可以提供可比较的(或更好的)结果,同时减少消耗的计算资源。

如果打算执行使用分量来预测连续变量值的分析或机器学习方法,建议使用 PCA。 LDA 额外要求将每条记录分类为一个类别(例如土地使用类别),建议使用 LDA 执行使用分量基于数值分析字段对分类变量的类别进行分类的分析或机器学习方法。

可能的应用

可将此工具用于以下类型的场景:

  • 您有一个包含难以同时可视化的多个字段的要素类。 可通过将数据集降为二维,使用图表可视化数据,来查看字段在二维下的多元交互。
  • 您想要使用空间关系建模工具集中的分析工具,例如广义线性回归地理加权回归 (GWR) 工具,但是许多字段彼此之间高度相关。 通过降低解释变量的维数,可以提高分析工具的稳定性并降低与训练数据过度拟合的可能性。
  • 您正在执行一种机器学习方法,该方法的执行时间随着输入变量数的增加而迅速增加。 通过降低维数,可获得可比较的分析结果,同时减少所用内存和时间。

PCA 的工作原理

PCA 的工作原理如下:按顺序构建分量,每个分量用于捕获所有分析字段的总方差的特定百分比。 每个分量本身是每个分析字段的线性组合(加权总和),其中权重称为分量的负载。 负载与分析字段一起形成一个特征向量,表示每个分析字段对分量的贡献。 分量还与一个特征值相关联,该特征值表示该分量保持的总方差。

对于两个分析字段,可以将 PCA 在几何上可视化为数据空间中的旋转轴,其中旋转用于尽可能提高新轴的差异率,如下图所示。

二维 PCA

在左图中,每个点是一个输入表记录,这些点是在二维下使用 x 轴和 y 轴上的两个分析字段的值绘制的。 蓝色轴的长度表示两个变量中每个变量的方差。 两个蓝色箭头的长度大致相等,表示两个变量的方差大致相等。 在中图中,已旋转轴以更好地表示变量之间的线性关系。 其中一个绿色轴比另一个绿色轴稍长,表示在该方向上方差更大。 但是,此旋转不是最佳旋转。 右图显示了 PCA 找到的最佳旋转,该旋转与变量之间的线性关系一致。 此旋转生成的红色轴的方差量最高。 较大的红色轴对应于第一个主成分,并且是二维数据的最佳一维表示。 在所有三张图中,原始变量的总方差相同,但是在右图中,已将可能的最大方差量分配给第一分量,而将可能的最小方差量留给第二分量。

可使用输出特征值表输出特征向量表参数查看每个分量的特征值和特征向量,特征向量表附带一个条形图,用于显示每个分量的负载。 有关 PCA 的完整数学详细信息,请参阅其他资源部分。

降级线性判别分析的工作原理

降级线性判别分析(通常缩写为 RR-LDA 或降级 LDA)的工作原理如下:按顺序构建尽可能提高分类变量的类间可分离性的分量。 该方法试图降低连续分析字段的维数,同时在对分类变量的类别进行分类时保持最高的准确性。 与 PCA 相似,LDA 的分量也与特征向量和特征值关联,以表示分析字段对每个分量的贡献以及每个分量保持的方差量。

对于两个连续分析变量和一个具有两个类别的分类变量,LDA 还具有涉及旋转的 2D 几何解释。 下图显示了一个数据集,其中每个点表示输入数据集的记录。 X 轴和 y 轴是两个连续分析字段,点根据其类别渲染成红色或蓝色。 红色和蓝色分布是投影到 y 轴时的类别分布。 类的分布中存在一些可分离性,但是这些类大部分重叠且难以分离。 通过投影到 x 轴,也会出现类似的分离缺失现象。

LDA 类内和类间方差

下图显示了由 LDA 确定的最佳轴旋转。 此旋转会在类别分布之间造成最大分离,从而实现最高的类别分类率。

最大类间方差

如果至少创建了两个分量,则输出要素将包含线性判别散点图。 第一和第二分量的值将绘制在轴上,并且点按其类别进行着色。 如果前两个分量保留的信息足以区分类别,则图中的点可能会按类别聚类。

线性判别图

可使用输出特征值表输出特征向量表参数查看每个分量的特征值和特征向量,特征向量表包含一个条形图,用于显示每个分量的负载。 有关 LDA 的完整数学详细信息,请参阅其他资源部分。

确定分量数

降维中的最重要选择之一是要创建的分量数。 这相当于选择输入数据要降低的维数。 有时,可基于预期的分析确定所需的分量数,例如,最多只能高效使用四个变量的一种机器学习方法。 在其他情况下,您可能想要使用保持 90%的原始数据总方差等所需的尽可能多的主成分。 在另一些情况下,您可能需要在尽可能减少分量数和尽可能提高保持的方差百分比之间进行权衡。

在两种数据降维方法中,对于 p 个分析字段,由第 i 分量解释的方差百分比是方差解释公式,其中,di 是第 i 分量的特征值。 每个序分量保持的总方差百分比小于其前面的分量。

该工具使用的分量数取决于是否为最小分量数要保持的最小方差百分比参数指定值。

  • 如果指定了一个参数而未指定另一个参数,则由指定参数的值确定分量数。 分量数将等于满足指定最小值所需的最小数。
  • 如果指定了两个参数,则使用生成的两个分量数中的较大者。
  • 如果这两个参数均未指定,则使用几种统计方法确定分量数,并且该工具将使用每种方法建议的最大分量数。 这两种降维方法都包含 Broken-Stick 方法和 Bartlett 球形度检验。 对于 PCA,如果置换检验次数参数值大于零,还会执行置换检验。 统计检验的结果将显示为地理处理消息。 有关这三种检验的数学详细信息,请参阅其他资源部分。

输出特征值表附带一个自定义折线图,称为“碎石图”,用于显示每个分量保持的方差百分比。 在下面的“碎石图”中,x 轴显示每个序分量,红线显示每个分量解释的方差百分比。 红线下降,表示每个新分量保持的方差量小于前一个分量。 X 轴上分量 2 上方的竖直黑线表示该工具使用了两个分量,用于保持 95.8% 的原始变量总方差。 蓝线显示了用于估计最佳分量数的 Broken-Stick 方法的结果。 最佳分量数通常对应于红线和蓝线的交点,表明分量数一致。

碎石图

最佳做法和限制

使用此工具时应考虑以下问题:

  • 对于 PCA,此分析的结果取决于是否调整变量的比例。 由于 PCA 将总方差划分为多个分量,因此分析字段的原始值越大,与之关联的总方差百分比就越高。 要消除此影响,可调整每个分析字段的比例以使方差等于 1。 例如,如果对分析字段进行了比例调整,则以英尺为单位测量的数据和以米为单位测量的数据将生成相同的分量。 如果未进行比例调整,则以英尺为单位测量的数据对第一分量的贡献大于以米为单位的相同数据。 这是因为以英尺为单位测量的距离值大于以米为单位测量的相同距离值(1米= 3.2808英尺)。
  • PCA 将通过假设所有分析字段之间存在线性关系,来估计特征值和特征向量。 如果分析字段之间的关系是非线性的,则 PCA 无法准确捕获这些关系。 建议创建分析变量的散点图矩阵,然后寻找非线性模式。 如果发现非线性模式,则可以使用转换字段工具线性化这些关系。

其他资源

有关 PCA 和降级 LDA 的其他信息,请参阅以下参考文献:

  • James, G., Witten, D., Hastie, T., Tibshirani, R. (2014). "An Introduction to Statistical Learning: with Applications in R." Springer Publishing Company, Incorporated. https://doi.org/10.1007/978-1-4614-7138-7

有关用于确定分量数的方法的其他信息,请参阅以下参考文献:

  • Peres-Neto, P., Jackson, D., Somers, K. (2005). "How many principal components? Stopping rules for determining the number of non-trivial axes revisited." Computational Statistics & Data Analysis. 49.4: 974-997. https://doi.org/10.1016/j.csda.2004.06.015.

相关主题