相似性搜索工作原理

相似性搜索工具用于识别哪些候选要素要匹配的一个或多个输入要素最相似(或最相异)。相似性基于数值属性(感兴趣属性)的指定列表。如果指定了一个以上的要匹配的输入要素,相似性将基于每个感兴趣属性的平均值。输出要素类(输出要素)将包含要匹配的输入要素以及找到的所有匹配的候选要素,这些要素以相似程度排序(由最相似或最不相似参数指定)。返回的匹配数基于结果数参数的值。

潜在的应用

  • 您可以使用相似性搜索工具来找出与您的城市在人口、教育和邻近特定娱乐机会方面相似的其他城市。
  • 当地官员可能希望促进其城市的潜在业务,从而提高税收。相似性搜索工具有助于帮助他们找出与其城市类似的城市,以便他们可以比较自身的吸引力属性(例如低犯罪率和高成长率)。这些官员也可能有兴趣查找比其城市大或小、但位置相似(余弦相似性)的城市。找出与他们的城市相似但更小或更大、并且具有他们期望拥有的商业吸引力的地方可以让他们指出相似性,同时可以强调小的优势(不那么拥堵、小城镇韵味)或者大的好处(例如更多的顾客)。这些官员们还可能关注和他们的城市不特别相似的城市。如果任何不特别相似的地方表现出他们期望吸引的业务竞争优势,此分析则可以为他们提供相对所需的信息。
  • 人力资源经理可能想要证明其公司薪资水平的合理性。找出在城市规模、生活成本和便利设施方面相似的城市后,她便可以查看这些城市的薪资水平,从而确定它们是否与本公司的薪资水平一致。
  • 犯罪分析师希望搜索数据库以查看某罪行是否属于较重犯罪形式或有重罪趋势。
  • 课外健身计划在 A 城极其成功。计划提倡者期望找到与其计划推广的候选城市具有相似特征的其他城市。
  • 执法机构用此方法揭露毒品种植地或生产地。标识具有相似特征的地方可能有助于制定未来的搜索目标。
  • 大型零售商不仅拥有数个成功店铺,也有少数业绩不佳的店铺。找到一些具有相似人口特征和环境特征(交通便利性、知名度以及商业互补性等等)的地方有助于标识新店的最佳位置。

匹配方法

匹配可基于属性值、等级属性值或属性剖面(余弦相似性)。下面介绍每种方法采用的算法。对于所有方法,如果有一个以上的要匹配的输入要素,则需要将这些要素的属性取平均值来创建复合目标要素,以用于匹配过程:感兴趣属性的平均值

属性值

匹配方法参数选择属性值时,工具首先标准化所有感兴趣属性 对于每个候选要素,将从目标要素中减去标准化值,求得平方差,然后再将每个平方差相加。相加的总和即为该候选要素的相似性指数。所有候选要素经处理后,按照指数从小(最相似)到大(最不相似)的顺序对候选要素进行分级。

抢先版本:

属性值的标准化涉及 Z 变换,即从每个值中减去所有属性值的平均值然后除以所有值的标准差(要匹配的输入要素候选要素均包含在平均值和标准差计算中)。标准化将所有属性放在同一比例中,即使它们由不同类型的数字表示时也是如此:比率(0 到 1.0 的数字)、人口(超过 1 百万)和距离(例如,千米)。

等级属性值

匹配方法参数选择等级属性值时,工具首先为目标要素和所有候选要素对感兴趣属性进行分级排序。然后为每个候选要素对目标要素相关的每个属性平方差求和。如果目标的人口值在所有候选要素中为第 10 大值,而所考虑的候选要素的人口为第 15 大值,此候选要素的平方秩人口差将为 10 - 15 = -5 和 -5**2 = 25。所有感兴趣属性的平方秩人口差的总和即为此候选要素的相似性指数。所有候选要素经处理后,按照指数从小(最相似)到大(最不相似)的顺序对候选要素进行分级。

属性剖面

匹配方法参数选择属性剖面时,此工具首先将所有感兴趣属性标准化(此方法需要最少两个感兴趣属性)。然后用余弦相似性数学方法比较每个候选要素的标准化属性矢量与所匹配目标要素的标准化属性矢量。两个矢量 A 和 B 的余弦相似性按照如下方式计算:

余弦相似性方程

余弦相似性与属性量的匹配无关,而此方法主要关注这些属性的关系。如果您在比较的矢量(目标与候选要素之一)中创建标准化属性的剖面图(折线图),则可以看到非常相似或非常不同的剖面:

属性剖面
顶部一对属性的剖面非常相似,而底部一对属性的剖面十分不同。

余弦相似性指数范围为 1.0(完全相似)到 -1.0(完全不相似),并在 SIMINDEX(余弦相似性)字段中加以报告。您可以使用此相似性方法以可能更大或更小的比例找出具有相同特征的地方。

最佳做法

制图相似性模式

如果您将结果数参数设定为 0,则工具将对所有候选要素进行分级排序。此分析的输出将显示相似性的空间模式。注意,在分级排序所有候选要素时,您可以获取有关相似性和相异性的信息。

等级相似性地图

包括空间变量

假设您知道某濒危物种在某地(面区域)生存很好,您希望找到该物种也可能茁壮成长的其他地方。您可能想寻找与物种成功存活环境相似的地方,但可能还需要这些地方足够大,足够紧凑以保证物种成活。在此分析中,您可以计算每个面区域的紧凑性指标(一般紧凑性测量基于与圆圈区域具有相同周长的面的面积)。运行相似性搜索工具时,您可以将您的紧凑性测量和能够反应面的尺寸 (Shape_Area) 的属性包括在追加到输出的字段参数中。就紧凑性和面积排列出前 10 个匹配解决方案将有助于识别再引入物种的最适宜位置。

或许您是一个对扩大业务感兴趣的零售商。如果您已经拥有成功店铺,可以通过能够反映成功关键特征的属性来帮助查找扩大业务的候选位置。假设您销售的产品对大学生最有吸引力,并且您想避免靠近您的现有店铺或远离竞争者。在运行相似性搜索工具之前,您可以使用近邻分析工具创建空间变量:与大学或大学生密度较大处之间的距离、与现有店铺的距离以及与竞争者的距离。运行相似性搜索工具时,您可以将这些空间变量包括在追加到输出的字段参数之中。