本文档提供了有关工具参数的更多信息,而且介绍了使用空间统计工具分析数据时会遇到的重要的基本词汇和概念。需要工具参数的更多信息时,使用本文档作为参考。
注:
- 空间统计工具箱中的工具无法直接处理 XY 事件图层。运行分析前,首先使用复制要素将“XY 事件”数据转换为要素类。
- 在使用 shapefile 时,请注意 shapefile 无法存储空值。根据非 shapefile 输入创建 shapefile 的工具或其他过程可能会将空值存储(或解析)为零。某些情况下,空值则以极大的负值储存于 shapefile 中。这会产生意外的结果。有关详细信息,请参阅 shapefile 输出的地理处理注意事项。
空间关系的概念化
空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到算法中。因此,空间统计工具箱中的很多工具都要求您在执行分析之前为空间关系的概念化参数选择一个值。常见的概念化包括反距离、行程时间、固定距离、K 最近相邻要素和邻接。您要使用的空间关系概念化表述主要取决于要测量的对象。例如,要测量特定种类种子植物的聚集程度,使用反距离可能最适合。但是,如果要评估某一地区通勤者的地理分布,行程时间和行程成本可能是描述这些空间关系的更好选择。对于某些分析,空间和时间可能没有更抽象的概念重要,例如熟悉程度(某些事物越熟悉,功能上越接近)或空间交互(例如,洛杉矶与纽约之间的通话数要比纽约与纽约附近较小城镇(例如波基普西市)之间的通话数更多;有些人可能认为洛杉矶和纽约在功能上更接近)。
空间约束多元聚类工具包含一个称为 空间约束的参数,而且其参数选项与空间关系的概念化参数的选项类似,只是使用方法不同。施加空间约束时,只有至少存在一个相邻要素(根据邻接、最近相邻要素关系或三角测量法的定义)的要素才可以属于同一分组。更多详细信息和示例,请参阅空间约束多元聚类工作原理。
下面介绍了空间关系的概念化表述参数的各个选项。所选的选项决定了用于评估相邻要素环境中各个要素工具的相邻关系。这些工具包括空间自相关(全局 Moran's I)、热点分析(Getis-Ord Gi*) 和聚类和异常值分析(Anselin 局部 Moran's I)。请注意,某些选项只有在使用生成空间权重矩阵工具时才可用。
反距离、反距离平方(阻抗)
使用“反距离”选项时,空间关系的概念模型是一种阻抗或距离衰减。任何要素都会影响其他所有要素,但距离越远,影响越小。使用反距离这一概念化表述时,通常要指定一个距离范围或距离阈值以减少所需的计算数(尤其对于大型数据集而言)。如果未指定任何距离范围或距离阈值,将会为您计算默认阈值。通过将距离范围或距离阈值设置为零,可将每一个要素都强制指定为其他所有要素的相邻要素。
反欧氏距离适用于对连续数据(如温度变化)进行建模。当分析涉及硬件存储的位置或其他固定的城市设施位置时,如道路网络数据不可用时,反曼哈顿距离可能最为合适。使用反距离平方选项时的概念模型与使用反距离时相同,只是曲线的坡度更陡,因此相邻要素影响下降得更快,并且只有目标要素的最近相邻要素会对要素的计算产生重大影响。
距离范围(影响的范围)
对于某些工具(如热点分析),固定距离范围是默认空间关系的概念化。通过固定距离范围选项,可以对数据施加一个空间交互的影响范围或移动窗口概念模型。在为距离范围或距离阈值指定的距离范围内,将对邻近要素环境中的每个要素进行分析。指定距离范围内的相邻要素具有相等的权重。指定距离之外的要素不会影响计算(它们的权重为零)。如果要评估处于特定(固定)空间尺度下数据的统计属性,请使用固定距离范围方法。如果要研究通勤模式并且已知平均上下班路程为 15 英里,则最好使用 15 英里的固定距离进行分析。请参阅选择固定距离以了解有助于您确定合适的分析比例的策略。
无差别的区域
空间关系的概念化参数的无差别的区域选项将固定距离范围模型和反距离模型合并为一体。距离范围或距离阈值内的所有要素都包含在对目标要素的分析中。超过关键距离后,影响级别(权重)会快速下降。假设您正在找工作,而且可在一份 5 英里远的工作地和一份 6 英里远的工作地之间进行选择。这种情况下,在决定接受哪份工作时您可能不会过多地考虑距离。现在,假设您要在一份 5 英里远的工作地和另一份 20 英里远的工作地之间进行选择。这种情况下,距离会变得更像是阻抗并且可能影响到最终决策。如果想要保持分析的尺度不变,但不想在目标要素计算中所包含的相邻要素间添加明显的边界,请使用此方法。
面邻接(一阶)
对于面要素类,可选择仅邻接边(有时称为 Rook's Case)或邻接边拐角(有时称为 Queen's Case)。对于仅邻接边,共享边(具有重合边界)的面包含在目标面的计算中。不共享边的面被排除在目标要素计算之外。对于邻接边拐角,共享边或角的面包含于目标面的计算中。如果两个面存在重叠的部分,则将视为相邻要素并包含在彼此的计算中。要对某些类型的传染过程进行建模或要处理以面的形式显示的连续数据时,可以对面要素使用这些邻接概念化中的一种。
K - 最近邻
还可以构造相邻要素关系,以便每个要素都可在其指定数量的最近相邻要素空间环境内进行评估。如果 K(相邻要素数)为 8,距目标要素最近的 8 个相邻要素都会包含在该要素的计算中。在要素密度高的位置处,分析的空间范围会比较小。与此类似,要素密度稀的位置,分析的空间范围会比较大。此空间关系模型的一个优势在于它可确保每个目标要素都有一些相邻要素,即使要素密度在研究区域内变化较大时也是如此。使用生成空间权重矩阵工具时该方法可用。作为与探索性回归结合以评估回归残差的默认概念化,相邻要素的数目的 K 最近相邻要素选项被设置为 8。
Delaunay 三角测量(自然相邻要素)
使用“Delaunay 三角测量”选项可构造相邻要素,方法是通过点要素或要素质心创建 Voronoi 三角形,使得每个点或质心都是三角形结点。由三角形的边连接的结点被视为相邻结点。使用 Delaunay 三角测量可确保每个要素至少具有一个相邻要素,即使数据包含岛或变化明显的要素密度。具有重合要素时,不要使用 Delaunay 三角测量选项。使用生成空间权重矩阵工具时该方法可用。
空间时间窗
使用此选项,可根据空间窗(固定距离)和时间窗(固定时间间隔)来定义要素的关系。当您使用生成空间权重矩阵工具创建空间权重矩阵文件时,此选项可用。选择空间时间窗时,需要指定日期/时间字段、日期/时间间隔类型(例如,小时、天或月份)和日期/时间间隔值。间隔值为整数。例如,如果选择小时作为时间间隔类型,3 作为间隔值,则两个要素的“日期/时间”字段中的值均处于对方的 3 小时内时,这两个要素将被视为相邻要素。凭借这种概念化,如果要素处于目标要素的指定距离和指定时间间隔内,则这些要素视为相邻要素。例如,如果要创建一个空间权重矩阵文件以便配合热点分析来确定空间-时间热点,则可以从空间关系的概念化选择空间时间窗。更多详细信息,包括如何可视化结果,请参阅空间-时间分析。其他机会可用于帮助您在 3D 中可视化 netCDF 空间-时间立方体。
通过文件(用户定义的空间关系)获取空间权重
您可以使用生成空间权重矩阵工具工具来创建存储要素相邻要素关系的文件。如果要素的空间关系在表中定义,请使用生成空间权重矩阵工具将该表转换为空间权重矩阵 (.swm) 文件。该表中应该包括特定字段,以便使用转换表选项获取 SWM 文件。您还可以提供定义自定义的空间关系的概念化的格式化 ASCII 文本文件的路径(例如基于空间交互)。
选择空间关系的概念化:最佳做法
对要素在空间中彼此交互方式构建的模型越逼真,结果就越准确。空间关系的概念化参数的选择应反映要分析的要素之间的固有关系。有时,您的选择还会受到数据特征的影响。
例如,反距离方法(反距离和反距离平方)最适合对连续数据,或最适合对符合此种情形的对象进行建模:两个要素在空间上越靠近,它们彼此交互或影响的可能性就越大。使用此空间概念化参数,每个要素都可能是其他各个要素的邻域,而对于大型数据集,这将涉及巨大的计算量。使用反距离概念化参数时,应始终尝试添加一个距离范围或距离阈值。这对于大型数据集尤其重要。如果将距离范围或阈值距离参数留空,系统将为您计算阈值距离,但这可能不是分析所需的最适当距离。该默认距离阈值将是确保每个要素至少具有一个近邻的最小距离。
固定距离范围方法适用于处理点数据。其为热点分析 (Getis-Ord Gi*) 工具采用的默认选项。在面的大小变化较大(例如,研究区域边界处的面较大而研究区域中心的面较小)而希望确保分析比例一致时,此选项对于面数据而言通常为不错的选择。有关帮助您为分析确定适当的距离范围值的相关策略,请参阅下面的选择固定距离范围值部分。
无差别的区域概念化适用于以下情况:“固定距离”适合的情况,但对邻域关系添加明显的边界不是正确的数据表示。请切记,“无差别的区域”概念模型会将每个要素视为其他各个要素的相邻要素。因此,该选项不适合大型数据集,因为提供的距离范围或距离阈值值不会限制相邻要素数,而只是指定空间关系的强度在何处开始减小。
当面在大小和分布上类似并且空间关系是面的临近性的函数(这是指如果两个面共享一个边界,则它们之间的空间交互将增加)时,面邻接概念化(仅邻接边、邻接边拐角)非常有效。选择面邻接概念化时,您几乎总要为具有行标准化参数的工具选择行标准化。
如果想要确保具有一个用于分析的最小相邻要素数,K 最近邻选项非常有效。特别是当与要素相关的值存在偏斜(不是正态分布)时,在至少有八个相邻要素(这只是经验规则)的环境中评估各要素将十分重要。当数据的分布在研究区域上存在变化以致于某些要素远离其他所有要素时,该方法十分适用。但请注意,分析的空间环境会根据要素的稀疏程度或密集程度的变化而发生变化。当固定分析的比例不如固定相邻对象数目重要时,K 最近邻方法较适合。
有些分析者将 Delaunay 三角测量选项视作可构建一组要素的自然相邻要素的方法。当数据包含岛屿面(未与其他面共享任何边界的孤立面),或者当要素的空间分布非常不均匀时,该方法是一个很好的选择。但是,具有重合要素时,不适合使用此方法。与 K 最近邻方法类似,Delaunay 三角测量可确保每个要素至少具有一个相邻要素,但是要使用数据本身的分布确定每个要素获得的相邻要素数。
空间时间窗选项可以根据要素的空间和时态邻近性来定义要素的关系。如果要识别空间-时间热点或构造成员关系通过空间和时间邻近性加以约束的分组,便可使用此选项。有关空间-时间分析的示例以及有效渲染由此类分析得出的结果所采取的策略,请参阅空间-时间分析。
对于某些应用程序,最好以行程时间或行程距离对空间交互进行建模。如果要对城市服务的访问性进行建模,例如要查找城市犯罪集中的地区,借助网络对空间关系进行建模是一个好办法。使用生成网络空间权重工具以在分析之前创建空间权重矩阵文件 (.swm)。选择 GET_SPATIAL_WEIGHTS_FROM_FILE 作为空间关系的概念化值,并为权重矩阵文件参数提供您所创建 SWM 文件的完整路径。
提示:
多个组织维护他们自己的街道网络数据集,而您可能已经访问过这些数据集。作为替代,StreetMap Premium for ArcGIS 包含以 SDC 格式预构建的网络数据集,其覆盖北美洲、拉丁美洲、欧洲、中东和非洲、日本、澳大利亚和新西兰。此工具可直接使用这些网络数据集。
如果没有适用于分析的空间关系的概念化参数的选项,您可以按照您所希望的要素与要素之间的关系创建一个 ASCII 文本文件或表,并使用文本文件或表构建空间权重矩阵文件。如果上述其中一个选项接近预期,但还不是最佳选项,则可使用生成空间权重矩阵工具来创建一个基本 SWM 文件,然后编辑您的空间权重矩阵文件。
距离法
“空间统计”工具箱中的很多工具都在计算中使用距离。使用这些工具时您可以应用欧氏距离或曼哈顿距离。
- 欧氏距离按以下公式计算
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间的直线距离。
- 曼哈顿距离按以下公式计算
D = abs(x1–x2) + abs(y1–y2)
其中 (x1,y1) 是点 A 的坐标,(x2,y2) 是点 B 的坐标,D 是点 A 和点 B 之间垂直之差与水平之差的和。如果限制为仅南北行驶和东西行驶,则该距离是您必须行驶的距离。当只能在某一街道网络中行驶并且实际的街道网络行驶成本不可用时,该方法通常比欧氏距离方法更合适。
如果您的输入要素没有投影(即坐标采用度、分、秒形式),或者输出坐标系设定为地理坐标系,或者您指定某输出要素类路径为具有地理坐标系空间参考的要素数据集,那么距离将采用弦测法计算,而距离法将不可用。使用弦距离测量法是因为此方法不仅计算速度快,而且提供真实测地线距离的良好估测,至少对于彼此 30 度以内的点是这样。弦距离以球体为基础,而不是以地球实际的扁椭圆体为基础。给定地球表面上的任意两点,两点之间的弦距离是从三维地球穿过然后连接该两点的一条线的长度。弦距离以米为单位输出。
警告:
如果您的研究区域超过 30 度,则请确保投影数据。测地线距离超过 30 度时,弦距离不是理想的估测方法。
自身潜能(指定区域内权重的字段)
“空间统计”工具箱中的多个工具都允许您提供一个字段,表示要用于自身潜能的权重。自身潜能是要素与其自身之间的距离或权重。通常情况下,此权重为零,但在某些情况下,您可能要为每个要素指定其他固定值或不同的值。例如,如果基于各个人口普查区域之内和之间行驶的距离来执行空间关系的概念化,您可能会决定根据面大小对自然电位进行建模以反映区域内的平均行程成本如下:
dii = 0.5*[(Ai / π)**0.5]
其中 dii 是与面要素 i 的区域内行程相关的行程成本,而 Ai 是与面要素 i 相关的面积。
标准化
当要素的分布由于采样设计或施加的聚合方案而可能偏离时,建议使用行标准化。选择行标准化后,每个权重都会除以行的和(所有相邻要素的权重和)。行标准化的权重通常与固定距离相邻要素结合使用,并且几乎总是用于基于面邻接的相邻要素。这样可减少因为要素具有不同数量的相邻要素而产生的偏离。行标准化将换算所有权重,使它们在 0 和 1 之间,从而创建相对(而不是绝对)权重方案。每当要处理表示行政边界的面要素时,您都可能会希望选择“行标准化”选项。
以下为示例:
- 假设您拥有“全套”犯罪事件。在部分研究区域,因为犯罪案件多发而具有大量的点。而其他一些区域,因为犯罪率低而具有极少的点。点的密度恰好反映了(具有代表性)您试图揭示的内容:犯罪空间模式。可能不需要对空间权重执行“行标准化”。
- 假设您在采集土壤样本。由于某些原因(天气很好或正好位于不需要翻越障碍、穿越沼泽或向山顶跋涉的位置),您在某些研究区域采集了较多的样本,而在其他区域获取的样本极少。换句话说,点的密度并不是严格按计划的随机采样获得的结果;可能因为您自身的原因造成一些偏差。此外,点较多的区域不一定就能反映您所分析数据的基础空间分布。为了将样本采集过程中可能引入的偏差降至最低,需要对您的空间权重执行“行标准化”。进行行标准化时,对于某个要素具有 2 个相邻要素而另一个却具有 18 个相邻要素的情况不会对结果产生大的影响;所有权重的总和为 1。
- 只要聚合数据,就会对数据施加一个结构。该结构基本不能反映您正在分析的数据,也无法给你一个满意的答案。例如,人口普查面(如人口普查区域)是围绕人口来设计的,即使您的分析与人口问题相关,仍需要对您的权重执行行标准化,因为这些面仅代表多种不同描绘方式的一种。对于面数据,几乎总是需要对您的空间权重执行行标准化。
距离范围或距离阈值
使用距离范围或距离阈值可设置大多数空间关系的概念化(例如,反距离和固定距离范围)的分析比例。它是一个表示中断距离的正数值。将在对目标要素的分析中忽略该要素指定中断之外的要素。但是,使用无差别的区域时,指定距离之外的要素的影响会随邻近程度的减小而变弱,而距离阈值之内的影响则视为是相等的。
选择合适的距离十分重要。某些空间统计要求每个要素至少具有一个相邻要素才能保证分析的可靠性。如果为距离范围或距离阈值设置的值过小(以致某些要素没有相邻要素),会弹出一条警告消息,建议您使用一个更大的距离值重新尝试。计算近邻点距离工具将针对指定数目的近邻计算最小距离、平均距离和最大距离,并且帮助您确定可用于分析的适当距离范围值。有关附加原则,请参阅选择固定距离范围值。
当未指定任何值时,将计算默认阈值距离。下表说明了空间关系的概念化参数的不同选项对于三种可能的输入类型(负值无效)的行为方式。
反距离、反距离平方 | 固定距离范围、无差别的区域 | 面邻接、Delaunay 三角测量、K 最近邻 | |
---|---|---|---|
0 | 未应用任何阈值或中断;每个要素都是其他任一要素的相邻要素。 | 无效。将生成运行时错误。 | 忽略。 |
空 | 将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 | 将计算默认距离。该默认距离将是确保每个要素至少具有一个近邻的最小距离。 | 忽略。 |
正数 | 指定的非零正值将用作中断距离;只有当要素间的距离小于此值彼此才存在相邻关系。 | 对于“固定距离范围”,只有彼此间距离处于此指定中断范围内的要素才是相邻要素。对于“无差别的区域”,位于彼此的指定中断范围内的要素是相邻要素;位于彼此中断之外的要素也是相邻要素,但随着距离的增加,分配到的权重或影响将越来越小。 | 忽略。 |
相邻要素的数目
指定一个正整数以表示在分析中,每个目标要素要包含的相邻要素的数量。如果所选空间关系的概念化参数的值为 K 最近邻,则会在最近的 K 个要素(其中 K 是指定的相邻要素的数目)环境内计算每个目标要素。对于反距离或固定距离范围,运行生成空间权重矩阵工具时,为相邻要素的数目参数指定一个值可确保每个要素都具有最少数量的 K 个近邻。对于“面邻接”法,任何未指定相邻要素的数目的要素均将根据要素质心邻近性获得附加相邻要素。
权重矩阵文件
多个工具允许您通过提供空间权重矩阵文件的路径来定义各个要素之间的空间关系。空间权重是反映数据集中每个要素和其他任何一个要素之间的距离、时间或其他成本的数字。空间权重矩阵文件可通过生成空间权重矩阵工具进行创建,也可以是简单的 ASCII 文件。
当空间权重矩阵文件是简单的 ASCII 文本文件时,第一行应该是唯一 ID 字段的名称。这使您可以在生成该文件时灵活地使用数据集中的任意数字字段作为 ID;但是,ID 字段类型必须是整型(长整型或短整型)并且每个要素都必须具有唯一值。第一行之后,该空间权重文件应被格式化为三列:
- 起始要素 ID
- 终止要素 ID
- 权重
例如,假设有三个加油站。要用作 ID 字段的字段称为 StationID,要素 ID 为 1、2 和 3。您想要使用行程时间(以分钟为单位)对这三个加油站之间的空间关系进行建模。您可以创建如下所示的 ASCII 文件:
通常,权重在表示距离或时间时会被取倒数(例如,当距离为 10 英里或 10 分钟时,权重为 1/10),因此较近的要素比较远的要素具有更大的权重。从上述权重中注意到加油站 1 距加油站 2 为 10 分钟。还可以看出本示例中的行程时间不是对称的(从加油站 1 行驶到加油站 3 为 7 分钟,但从加油站 3 行驶到加油站 1 只有 6 分钟)。请注意,加油站 1 与其自身之间的权重为 0,并且没有加油站 2 到其自身的条目。缺失的条目都被假定具有权重 0。
为空间权重矩阵文件输入值顶多算是一项单调乏味的工作,即使对于小数据集也是如此。最好使用生成空间权重矩阵工具或编写一个快速的 Python 脚本来为您执行此任务。
空间权重矩阵文件 (.swm)
生成空间权重矩阵工具将创建空间权重矩阵文件 (.swm),该文件根据指定的参数定义数据集中所有要素之间的空间关系。此文件为二进制文件格式,因此无法直接查看此文件中的值。要查看或编辑 SWM 文件中的要素关系,可使用将空间权重矩阵转换为表工具。
将要素之间的空间关系存储于表中时,可使用生成空间权重矩阵工具将该表转换为 (.swm) 文件。该表将需要以下字段:
字段名 | 说明 |
---|---|
<唯一 ID 字段名> | 存在于输入要素类中的一个整型字段,带有每个要素的唯一 ID。这是起始要素 ID。 |
NID | 一个包含相邻要素 ID 的整型字段。这是终止要素 ID。 |
WEIGHT | 这是量化起始要素和终止要素之间空间关系的数字权重。较大的值表示两个要素之间具有较大的权重和较强的影响或交互。 |
共享空间权重矩阵文件
生成空间权重矩阵工具的输出为 SWM 文件。该文件在创建时与输入要素类、唯一 ID 字段和输出坐标系设置绑定到一起。其他用户通过使用您的 SWM 文件可以原样复制您为分析而定义的空间关系,只要输入要素类相同或者要素类中所有要素或要素子集与匹配的 Unique ID 字段关联即可。特别是当您要与其他人共享 SWM 文件时,请避免输出坐标系与空间参考(与输入要素类关联)不同的情况发生。一种较好的策略是对输入要素类进行投影,然后在创建 SWM 文件之前将输出坐标系设置为“与输入要素类相同”。