Как работает Пространственная автокорреляция (Глобальный индекс Морана I)

Инструмент Пространственная автокорреляция (Глобальный индекс Морана I) измеряет пространственную автокорреляцию на основе как местоположений объектов, так и их атрибутивных значений. Исходя из предложенного набора объектов и связанных с ними атрибутов, инструмент оценивает, является ли модель кластеризованной, равномерно распределенной или случайной. Этот инструмент вычисляет значение I Глобального индекса Морана, а так же z-оценка и p-значение для оценивания значимости этого индекса. P-значение это числовые аппроксимации площади под кривой для известного распределения, ограниченные критериями статистики.

Вычисления

Математические вычисления, используемые для расчета Глобального индекса Морана I

Дополнительные математические расчеты для вычисления Глобального индекса Морана I.

Расчеты для вычисления Глобального индекса Морана I, приведены выше. Инструмент вычисляет среднее и дисперсию для оцениваемого атрибута. Затем, из значения каждого объекта вычитается среднее, таким образом мы получаем отклонение от среднего. Далее, значения отклонений для всех объектов в заданной окрестности (объекты в пределах, например, диапазона расстояния) перемножаются между собой для получения перекрестных произведений. Числитель в формуле вычисления Глобального индекса Морана I содержит сумму всех перекрестных произведений. Допустим, у нас есть соседние объекты A и B, а среднее значение всех объектов равно 10. Диапазон возможных комбинированных результатов выглядит следующим образом:

Значение объектаОтклоненияПерекрестные произведения

A=50

B=40

40

30

1200

A=8

B=6

-2

-4

8

A=20

B=2

10

-8

-80

Если значения соседних объектов либо оба больше среднего, либо оба меньше среднего, перекрестное произведение будет положительным. Если одно значение меньше среднего, а другое больше среднего, то перекрестное произведение будет отрицательным. Во всех случаях, чем больше отклонение от среднего значения, тем больше суммарный результат. Если значения в наборе данных имеют тенденцию к пространственной кластеризации (объекты с высокими значениями, расположенные рядом с другими объектами с высокими значениями собираются в кластер; объекты с низкими значениями, расположенные рядом с другими объектами с низкими значениями также образуют кластеры), индекс Морана будет положительным. Если объекты с высокими значениями располагаются далеко от других объектов с высокими значениями, но рядом с ними есть объекты с низкими значениями, индекс будет отрицательным. Если положительные перекрестные произведения уравновешивают отрицательные перекрестные произведения, индекс будет стремиться к нулю. Числитель нормируется по дисперсии таким образом, чтобы значения индекса находились в диапазоне от -1.0 до +1.0 (исключения приведены в разделе дополнительной информации ниже).

После вычисления значения индекса, инструмент также вычисляет Ожидаемое значение индекса. Затем Наблюдаемое и Ожидаемое значения индекса сравниваются. Учитывая количество объектов в наборе данных и общую дисперсию значений, инструмент вычисляет z-оценку и p-значение, указывающие, является ли эта разница статистически значимой или нет. Значения индекса не интерпретируются напрямую - их интерпретация основывается на нулевой гипотезе.

Интерпретация

Инструмент относится к логически выведенной статистике, то есть, результаты анализа интерпретируются в контексте нулевой гипотезы. Для Глобального индекса Морана I, нулевая гипотеза соответствует утверждению, что атрибуты анализируемых пространственных объектов распределены случайно по изучаемой области; и наблюдаемые пространственные закономерности обусловлены исключительно случайными процессами. Допустим, вы берете анализируемые атрибутивные значения и присваиваете их пространственным объектам, при этом каждое значение может быть присвоено любому из объектов. Этот процесс (перебор и присвоение значений) является примером случайного пространственного процесса.

И если p-значение, возвращаемое инструментом, статистически значимо - вы отклоняете нулевую гипотезу. В следующей таблице приведена сводная информация о результатах:

P-значение статистически не значимо.

Вы не можете отклонить нулевую гипотезу. То есть наблюдаемое пространственное распределение значений атрибутов объектов – результат случайных пространственных процессов. Наблюдаемая пространственная закономерность атрибутивных значений объектов может быть одним из возможных вариантов абсолютной пространственной случайности.

P-значение статистически значимо, и z-оценка – положительная.

Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких/низких значений в наборе данных соответствует более выраженной пространственной кластеризации, чем наблюдалось бы, если эти пространственные закономерности были бы действительно случайными.

P-значение статистически не значимо, и z-оценка – негативная.

Вы можете отклонить нулевую гипотезу. Пространственное распределение высоких и низких значений в наборе данных более равномерно, чем если бы эти пространственные закономерности были бы действительно случайными. Равномерно распределенная пространственная модель часто отражает некоторый тип конкурентного процесса: объект с высокими значениями располагается рядом с другими объектами с высокими значениями, объект с низкими значениями располагается рядом с другими объектами с низкими значениями.

Примечание:

Нулевая гипотеза для инструментов Кластеризация с высокими/низкими значениями (Getis-Ord General G), и Пространственная автокорреляция (Global Moran I) основана на абсолютной пространственной случайности. Но интерпретация z-оценок для инструмента Кластеризация с высокими/низкими значениями, тем не менее, отличается.

Выходные данные

Инструмент Пространственная автокорреляция возвращает пять значений: Индекс I Морана, Ожидаемый индекс, Дисперсия, z-оценка и p-значение. Эти значения инструмент выводит в сообщениях геообработки и как производные выходные значения для использования в моделях и скриптах. Дополнительно инструмент может создать файл отчета в формате .html с графическим представлением результатов. Путь к отчету будет доступен в сообщениях, в которых будет содержаться вся информация о параметрах инструмента. Щелкните этот путь, чтобы открыть файл отчета.

Рекомендации

При использовании инструмента следует учитывать следующие рекомендации:

  • В параметре Входной класс объектов должен быть указан класс с числом объектов не меньше 30. При использовании менее 30 объектов результаты могут быть ненадежными.

  • Убедитесь, что вы указали подходящую опцию в параметре Определение пространственных отношений.

    Более подробно о возможных определениях пространственных отношений

  • Убедитесь, что вы указали подходящую опцию в параметре Диапазон расстояний или Пороговое расстояние. Должны быть приняты следующие допущения:
    • Все объекты должны иметь, по крайней мере, одного соседа.
    • Никакой из объектов не должен иметь всех других объектов в качестве соседей.
    • Если значения в параметре Входное поле смещены, у каждого объекта должно быть не менее восьми соседей.
  • Для входных полигональных объектов практически всегда необходимо использовать нормирование.

Дополнительная информация

Результаты работы инструмента Анализ горячих точек (Getis-Ord Gi*) показывают статистическую значимость "горячих" точек. Результаты инструмента могут быть статистически не достоверны. Глобальная статистика инструмента Пространственная автокорреляция (Глобальный индекс Морана I) оценивает общий тренд или закономерность в данных. Они наиболее эффективны, когда пространственные закономерности устойчивы в пределах области интереса. Локальные статистические показатели (такие, как Анализ горячих точек (Getis-Ord Gi*)) оценивают каждый объект в контексте соседних объектов и сравнивают локальные ситуации с глобальной ситуацией. Рассмотрим пример. Когда вы рассчитываете среднее значение для набора значений, вы также выполняете расчет глобальных статистических параметров. Если все значения будут примерно равны 20, тогда среднее значение тоже будет около 20, и этот результат даст вам представление о наборе данных, близкое к реальности. Но если половина значений около 1, а вторая половина около 100, среднее будет около 50. При этом значения данных, приближенные к 50, могут отсутствовать, поэтому среднее значение не является представлением о наборе данных, соответствующим реальности. Если вы построите гистограмму значений данных, вы увидите картину бимодального распределения. Таким же образом, глобальная пространственная статистика, включая инструмент Пространственная автокорреляция (Глобальный индекс Морана I), наиболее эффективна, если анализируемые пространственные закономерности последовательно определяются по изучаемой области. Результаты будут хорошим представлением всей пространственной модели. Для дополнительной информации см. The Analysis of Spatial Association by Use of Distance Statistics и анализ SIDS, который там представлен.

Результаты этого инструмента отличаются от результатов инструмента Пространственная автокорреляция (Глобальный индекс Морана I). Эти инструменты измеряют разные пространственные закономерности. См Интерпретация результатов инструмента Кластеризация с высокими/низкими значениями (Getis-Ord General G) для дополнительной информации.

Результаты z-оценки или p-значения не корректно сравнивать в разных областях изучения. Тем не менее, если область изучения фиксирована, (например вы анализируете все округа в штате Калифорния), значения параметра Входное поле сравнимы (например, везде анализируется число жителей), остальные параметры инструмента одинаковые - вы можете сравнить статистическую значимость z-оценок, чтобы оценить интенсивность пространственной кластеризации или пространственной дисперсии, а также для оценки изменений с течением времени. Вы также можете запустить анализ с последовательно возрастающим значением параметра Диапазон расстояний или пороговое расстояние, чтобы увидеть значение расстояния окрестности, при котором пространственная кластеризация наиболее выражена.

Как правило, глобальный индекс Морана находится в диапазоне от -1.0 до 1.0. Этот диапазон наблюдается обязательно, если веса нормированы по рядам. Если вы не используете нормирование весов по рядам, есть вероятность, что значения индекса не будут в диапазоне от -1.0 до 1.0, что также может указывать на неверно подобранные настройки. Ниже перечислены наиболее часто встречающиеся проблемы:

  • Значения в параметре Входное поле значительно смещены (чтобы увидеть это, можно построить гистограмму распределения), и параметры Определение пространственных взаимоотношений или Ширина полосы заданы таким образом, что у некоторых объектов очень небольшое число соседей. Показатель Глобальный индекс Морана I асимптотически нормален, то есть, если в ваших данных наблюдается смещение, необходимо, чтобы у каждого объекта было как минимум восемь соседей. Значение по умолчанию, вычисленное для параметра Диапазон расстояний или пороговое расстояние, гарантирует, что каждый объект имеет, по крайней мере, одного соседа, но это может быть недостаточно, особенно если в значениях параметра Входное поле наблюдается выраженное смещение.
  • Если в параметре Определение пространственных отношений используется опция Обратное расстояние, и значение обратного расстояния очень мало.
  • Если параметр Нормирование не установлен для опции Ряд, хотя это очень желательно. Если ваши данные были агрегированы, необходимо указывать опцию Ряд, если только схема агрегирования не относится непосредственно к анализируемому полю.

Примеры применения

Ниже примеры использования инструмента:

  • Определение подходящего расстояния окрестности для разных методов пространственного анализа, с помощью подбора расстояния, на котором пространственная автокорреляция наиболее сильно выражена.
  • Определение изменения общего тренда этнической или расовой сегрегации с течением времени — увеличивается или уменьшается сегрегация?
  • Анализ распространения идеи, заболевания или тренда в пространстве и во времени — остаются ли идея, болезнь или тренд изолированными и концентрированными или распространяются и становятся более распределенными?

Дополнительные ресурсы

Следующие книги и статьи содержат детальную информацию по этому инструменту:

Getis, Arthur, and J. K. Ord. "The Analysis of Spatial Association by Use of Distance Statistics." Geographical Analysis 24, no. 3. 1992.

Goodchild, Michael F. Spatial Autocorrelation. Catmog 47, Geo Books. 1986.

Griffith, Daniel. Spatial Autocorrelation: A Primer. Resource Publications in Geography, Association of American Geographers. 1987.

The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.