Как работает пространственный кластерный анализ на основе множественных расстояний (К-функция Рипли)

Пространственный кластерный анализ на основе множественных расстояний, основанный на К-функции Рипли, – это еще один способ анализа пространственных закономерностей в случайных точечных данных. Отличительной чертой этого метода от остальных в этом наборе инструментов (Пространственная автокорреляция и Анализ горячих точек) является то, что он суммирует пространственную зависимость (кластеризация или дисперсия объектов) по всему диапазону расстояний. Во многих исследованиях по изучению пространственных закономерностей необходим выбор подходящего масштаба анализа. Например, часто необходимо определить для анализа Диапазон расстояний или Пороговое расстояние. При исследовании пространственных закономерностей на множественных расстояниях и пространственных масштабах, работают изменения закономерностей, часто отражающие превалирование определенных пространственных процессов. К-функция Рипли отражает, как центроиды пространственных кластеров или дисперсий изменяются при изменении размера соседей.

При использовании этого инструмента, укажите число расстояний для оценки и, дополнительно, начальное расстояние и/или увеличение расстояния. С этой информацией, инструмент рассчитывает среднее количество соседних объектов, связанных с каждым объектом; соседние объекты это те, которые ближе установленного расстояния. По мере увеличения установленного расстояния, каждый объект, как правило, имеет больше соседей. Если среднее количество соседей для установленного расстояния выше средней концентрации объектов в области изучения, распределение считается кластеризованным на данном расстоянии.

Используйте этот инструмент, когда вы заинтересованы в проверке того, как изменяется кластеризация/дисперсия ваших объектов на разных расстояниях (разные масштабы анализа).

Вычисления

Предлагается некоторое количество вариаций К-функции Рипли. Здесь представлена обычная трансформация К-функции, часто обозначаемая как L(d):

Уравнение преобразования k-функции
При преобразовании L(d), Ожидаемое значение К равно Расстоянию

Значения по умолчанию Начальное расстояние и Приращение расстояния рассчитываются следующим образом:

  • Нам всегда известно Число интервалов расстояний (по умолчанию оно равно 10). Мы будем использовать это повторяющееся значение для расчета Приращения расстояния, если последнее не указано.
  • Сначала мы рассчитываем значение Максимального расстояния как 25 процентов максимальной длины экстента минимального ограждающего прямоугольника с входными объектами. Если для Метода коррекции границ выбрано Сократить область анализа, то Максимальное расстояние, которое больше либо 25 процентов максимальной длины экстента, либо 50 процентов минимальной длины экстента минимального ограждающего прямоугольника.
  • Если Начальное расстояние известно, то Приращение расстояния равно (Максимальное расстояние – Начальное расстояние) / число повторений.
  • Если Начальное расстояние не было указано, то Приращение равно Максимальное расстояние / число повторений и за Начальное расстояние берется значение Приращения расстояния.

Интерпретация результатов невзвешенной К-функции

Когда наблюдаемые значения К больше, чем ожидаемые значения К для определенного расстояния, в таком случае распределение более кластеризовано нежели случайно для обозначенного расстояния (масштаб анализа). Когда наблюдаемые значения К меньше, чем ожидаемые значения К, распределение более дисперсно нежели случайно для обозначенного расстояния (масштаб анализа). Когда наблюдаемые значения К больше, чем верхняя граница доверительного интервала (HiConfEnv), пространственная кластеризация для такого расстояния является статистически значимой. Когда наблюдаемые значения К меньше, чем нижняя граница доверительного интервала (LwConfEnv), пространственная дисперсия для такого расстояния является статистически значимой.

Если Поле веса не задано, граница доверительного интервала конструируется посредством случайного распределения точек в пределах изучаемой области и вычисления значение К для данного распределения. Каждое случайное перераспределение точек носит название "перестановка". Если к примеру, выбрано 99 перестановок, инструмент случайным выбором перераспределит набор из исходных точек 99 раз для каждой итерации. После распределения набора точек 99 раз инструмент выберет для каждого расстояния 2 значения К, максимально отклоняющихся от ожидаемых К (сверху и снизу); эти значения сформируют доверительный интервал. Границы доверительного интервала следуют (имеют такую же форму и положение) как и синяя линия, показывающая величины ожидаемых К для невзвешенных К.

Интерпретация результатов К-функции

Интерпретация результатов взвешенной К-функции

К-функция всегда оценивает пространственное распределение объектов в связи с Полной пространственной хаотичностью (ППХ) даже когда имеется Поле веса. Вы можете думать о весе как о величине, представляющей количество совпадающих объектов на каждом месте расположения объектов. Например, объект с весом 3 может быть интерпретирован как 3 совпадающих объекта. Существует одно отличие: объект не может быть собственным соседом. Следовательно, вы получите разные результаты для набора данных, где 3 индивидуальных совпадающих точки с весом 1 (все будут считаться как соседи для друг друга) нежели для набора данных с единичной точкой с весом 3 (объект не считается как сосед для самого себя). Результаты для взвешенной К-функции всегда будут более кластеризованы, чем результаты без поля весов. Полезно считать К-функцию для точек без весов, чтобы получить базовую линию, отражающую как сильно кластеризация связана исключительно с положением объектов. Затем вы можете сравнить базовую линию с взвешенными результатами, чтобы почувствовать, что добавляет процесс взвешивания. Взвешенная К-функция показывает кластеризацию (дисперсию) выше и ниже нежели тех, которые наблюдались бы без взвешивания. В действительности, вместо ППХ, вы можете использовать результаты, полученные от невзвешенной К-функции, чтобы представить ожидаемые структурные закономерности (со своими собственными границами доверительного интервала). Возможны две нулевые гипотезы в этом случае:

  1. Структура взвешенных объектов не более значимо кластеризована (дисперсна) нежели структура тех объектов. Вы отвергаете нулевую гипотезу, если наблюдаемые результаты взвешивания попадают за пределы доверительных границ для невзвешенных результатов.
  2. Структура взвешенных точек более кластеризована (дисперсна) чем могло быть. Вы отвергаете нулевую гипотезу, если наблюдаемые невзвешенные результаты попадают в пределы доверительных границ для взвешенных результатов К-функции.

Когда Поле веса определено, только значения весов случайным образом перераспределяются, чтобы рассчитать доверительные границы, в то время как местоположение точек остается фиксированным. По существу, когда Поле веса определено, местоположение остается фиксированным и инструмент оценивает кластеризацию значений объектов в пространстве. Так как результаты сильно структурированы фиксированным положением объектов, доверительные границы следуют красной линии наблюдаемых значений К для взвешенного К анализа.

Дополнительные ресурсы

Bailey, T. C., A. C. Gatrell. Interactive Spatial Data Analysis (Интерактивный анализ пространственных данных). Longman Scientific & Technical, Harlow, U.K. 395 pp. 1995.

Boots, B., and A. Getis. Point Pattern Analysis (Анализ структурных точечных закономерностей). Sage University Paper Series on Quantitative Applications in the Social Sciences, series no.Sage Publications. Sage Publications. 1988.

Getis, A. Interactive Modeling Using Second-Order Analysis. Environment and Planning A, 16: 173–183. 1984.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.