Как работает инструмент Анализ локальных выбросов

Инструмент Анализ локальных выбросов идентифицирует статистически значимые кластеры и выбросы в данных. Он находит в изучаемой области местоположения, которые статистически отличаются от соседей в пространстве и времени. В качестве входных данных используется куб пространство-время в формате NetCDF, созданный с помощью инструментов Создать куб Пространство-Время по агрегации точек или Создать Куб пространство-время из указанных местоположений. Далее инструмент использует параметр Определения пространственных взаимоотношений для вычисления пространственно-временной окрестности при расчете статистики Anselin локальный индекс Морана I (Анализ кластеров и выбросов) в каждом бине. Для этого инструмент вычисляет локальный индекс Морана I, псевдо p-значение и код типа (CO_TYPE) представляющий тип категории кластера или выброса для каждого статистически значимого бина во Входном кубе Пространство-Время. Псевдо p-значения представляют статистическую значимость вычисленных значений индекса, и его точность зависит от числа перестановок.

Возможное применение

Инструмент Анализа локальных выбросов может применяться во многих областях, включая экономику, управление ресурсами, политическую географию, демографию, здравоохранение и охрану порядка. К вопросам, на которые можно ответить с помощью этого инструмента, относятся:

  • Есть ли в изучаемой области местоположения с аномальными типами расходов?
  • Был ли в изучаемой области период с неожиданно высоким уровнем заболеваемости?
  • Есть ли районы, жители которых потребляют значительно больше воды, чем в соседних? Возможно, есть районы, постоянно потребляющие меньше воды, на примере которых можно разработать методы экономии ресурсов.
  • Есть ли в моем регионе места со значительным ростом заявлений о страховых случаях за последний месяц?

Выходные данные инструмента

Выходные данные, получаемые в результате работы инструмента. Чаще всего выходные данные представлены в виде двухмерной карты с суммой временных данных по каждому местоположению, которая добавляется к обычной карте по завершении работы инструмента. Используются следующие категории:

Имя типаОпределение
Незначимый никогда

Never Significant

Местоположение, где никогда не встречается статистически значимый CO_TYPE.

Только высокий-высокий кластер

Only High-High Cluster

Местоположение, где во времени встречается только статистически значимые кластеры HH.

Только высокий-низкий кластер

Only High-Low Outlier

Местоположение, где во времени встречается только статистически значимые выбросы HL.

Только низкий-высокий кластер

Only Low-High Outlier

Местоположение, где во времени встречается только статистически значимые выбросы LH.

Только низкий-низкий кластер

Only Low-Low Cluster

Местоположение, где во времени встречается только статистически значимые кластеры LL.

Несколько типов

Multiple Types

Местоположение, где во времени встречаются различные типы статистически значимых кластеров и выбросов (например, в течение некоторого времени местоположение являлось выбросом LH, затем оно стало кластером HH).

Дополнительно сообщения, в которых суммируются результаты анализа, отображаются в нижней части панели Геообработка во время выполнения этого инструмента. Для просмотра этих сообщений наведите курсор на индикатор хода выполнения, щелкните Открыть всплывающее окно или откройте раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента из панели История геообработки.

В этих сообщениях содержится такая информация о Входном кубе Пространство-Время, как временной интервал, временное смещение и число проанализированных бинов и местоположений. Здесь также находятся важные сведения о выбросах, произошедших в последнем временном шаге, а также сумма ключевых временных шагов, которая может представлять большой интерес. Например, если в задачу входит нахождение неэффективных областей на территории продаж, при изучении выбросов LH эти сообщения позволят определить ключевой временной шаг, в котором находится наибольшее число LH выбросов.

Пример сообщений инструмента Анализ локальных выбросов

Этот инструмент создает новый выходной класс объектов со следующими полями, где находится сводная информация о бинах в каждом местоположении Входного куба Пространство-Время:

ПсевдонимИмя поля
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Местоположения с меткой No Spatial Neighbors, которые в аналитических вычислениях зависят только от временных соседей

NO_SP_NBR

Местоположения с Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Дополнительная суммарная статистика, включающая сумму, минимальное и максимальное значения, среднее, стандартное отклонение и медиану анализируемой переменной.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE и MED_VALUE

И в заключение инструмент Анализ локальных выбросов добавляет некоторые новые переменные к Входному кубу Пространство-Время. Если эти переменные уже существуют (возможно вы уже запускали инструмент Анализ локальных выбросов для той же Переменной анализа несколько раз), они будут перезаписаны, то есть куб всегда содержит только самые свежие результаты анализа.

Вы можете визуализировать эти переменные с помощью ArcGIS Pro. См. Визуализация куба Пространство-Время для дополнительной информации.

Интерпретация

Для облегчения интерпретации результатов инструмента Анализ локальных выбросов можно использовать инструмент Визуализация куба Пространство-Время в 3D для отображения полученных переменных, добавленных к кубу. Индекс, p-значение и Cluster Outlier Analysis Type для каждого бина может быть визуализирован с помощью Cluster and outlier results Темы отображения. Индекс с положительным значением означает, что у этого бина имеются соседние бины с похожими высокими или низкими атрибутивными значениями; этот бин является частью кластера. Индекс с отрицательным значением означает, что у бина имеются соседние бины с отличающимися значениями; т.е. этот бин является выбросом. В любом случае, p-значение или псевдо p-значение для объекта должно быть достаточно маленьким, чтобы кластер или выброс можно было считать статистически значимыми. Более подробно об определении статистической значимости см. Что такое z-оценка? Что такое p-значение?. Заметьте, что Локальный индекс Морана (I) – относительное измерение и может интерпретироваться только в контексте сгенерированного референсного распределения и вычисленных p-значения и псевдо p-значения. Псевдо p-значение и p-значения, полученные в классе выходных объектов, являются скорректированными по множественному тестированию и пространственным зависимостям.

Тип кластера или выброса различает статистически существенный кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL), и выброс, в котором низкое значение окружено в основном высокими значениями (LH). Статистическая значимость задается с уровнем достоверности 95 %. Эта значимость представлена Коррекцией FDR, которая регулирует порог p-значения от 0.05 до значения, которое лучше отражает 95-процентный уровень достоверности, с учетом множественного тестирования.

Окрестность по умолчанию

Чтобы определить, является ли значение бина в определенном местоположении во времени и пространстве статистически значимой горячей или холодной точкой или статистически значимым выбросом, каждый бин рассматривается в контексте окружающих его бинов как в пространстве, так и во времени. По умолчанию в этом инструменте используется Фиксированное расстояние для определения пространственных отношений между бинами. Параметры Расстояние окрестности и Временной шаг окрестности определяют экстент окрестности для бина (контекст, на основании которого бин анализируется). Предположим, размерность бина составляет 400 метров на 400 метров, с временным шагом в 1 день. Если вы зададите для Расстояния окрестности 801 метр, а для Временного шага окрестности значение 2, пространство, определяющее окрестность, будет составлять два бина по горизонтали и по вертикали и один бин по диагонали, как показано на рисунке:

Пример пространственного соседства

Кроме того, окрестность определяется также и во времени. Все бины в одном местоположении, как целевой, так и его соседи во времени (как показано выше), соответствующие двум предшествующим временным периодам, будут включены в окрестность анализа – в этом примере – 3 дня. Обратите внимание, что во временную окрестность включаются только предшествующие временные шаги и Временной шаг окрестности, установленный на 2 в реальности охватывает 3 временных шага. Чтобы обеспечить наличие, по крайней мере, 1 временного соседства для каждого местоположения, Локальный индекс Морана не вычисляется для бинов первого временного среза. Значения бинов в первом временном среде, тем не менее, включаются в вычисление глобального среднего.

Если вы не указываете значение для параметра Расстояние окрестности, оно будет рассчитано по умолчанию. Формула основана на вычислении радиуса поиска по умолчанию для инструмента Плотность ядер. Если вы не указываете значение для параметра Временной шаг окрестности, значение по умолчанию устанавливается на 1.

Есть несколько дополнительных опций для определения окрестности с помощью параметра Определение пространственных взаимоотношений. Любая опция подразумевает, что инструмент сначала находит пространственных соседей, а затем определяются бины, расположенные в том же местоположении, но в пределах N предшествующих временных шагов, где N – Временной шаг окрестности, указанный во входных параметрах.

Выбор параметра Определение пространственных взаимоотношений должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Чем более точно вы сможете смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Рекомендации см. в разделе Выбор Концептуализации пространственных отношений: рекомендации.

Перестановки

Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений, методом сравнения имеющихся значений и случайно сгенерированных. Даже в случае полной пространственной случайности (CSR), в силу этой случайности всегда будет наблюдаться некоторая степень кластеризации. Перестановки позволяют сгенерировать множество случайных наборов данных и сравнить эти значения с локальным индексом Морана I исходных данных. Для этого, при каждой перестановке, значения, окружающие каждый бин, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I этих случайных данных. Рассматривая распределение локального индекса Морана I, полученного от перестановок, вы можете увидеть диапазон значений локального индекса Морана I, которые действительно являются следствием случайного распределения. Если в данных имеется статистически значимая пространственная закономерность, можно ожидать, что значения локального индекса Морана I, полученного в результате перестановок, показывают меньшую кластеризацию, по сравнению с исходными данными. Затем вычисляется псевдо p-значение, это делается определением пропорции значений локального индекса Морана I перестановок, которые показывают большую кластеризацию, по сравнению с исходными данными. Если эта пропорция (псевдо p-значение) мала (менее 0.05), можно заключить, что в данных отсутствует статистически значимая кластеризация.

Выбор числа перестановок является компромиссом между точностью и временем обработки. Увеличение числа перестановок повышает точность, поскольку увеличивается диапазон возможных значений для вычисления псевдо p. Например, с 99 перестановками, точность псевдо p-значения составляет .01 (1/99+1), а для 999 перестановок, точность равна .001 (1/999+1). Малое число перестановок может использоваться для начального изучения проблемы, но рекомендуется увеличивать количество перестановок до максимального, в зависимости от требуемого результата.

Дополнительные ресурсы

Anselin, Luc. "Local Indicators of Spatial Association – LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. (Руководство Esri по ГИС-анализу, Том 2)ESRI Press, 2005.