Анализ локальных выбросов (Углубленный анализ пространственно-временных закономерностей)

Краткая информация

Идентифицирует статистически значимые кластеры и выбросы в контексте пространства и времени. Инструмент является пространственно-временным исполнением статистики Локальный индекс I Морана.

Подробнее о том, как работает инструмент Анализ возникновения горячих точек

Иллюстрация

Анализ локальных выбросов

Использование

  • Этот инструмент поддерживает только файлы netCDF, созданные инструментами Создать куб Пространство-Время по агрегации точек, Создать куб Пространство-Время из указанных местоположений и Создать куб Пространство-Время из многомерного растрового слоя.

  • Каждый бин в кубе пространства-времени содержит значение LOCATION_ID, time_step_ID, COUNT и любое из Полей суммирования или Переменных, агрегированных при создании куба. Набор бинов, связанный с одним и тем же местоположением, имеет одинаковый идентификатор местоположения и представляет собой временной ряд. Набор бинов, связанный с одним и тем же временным интервалом, имеет одинаковый идентификатор шага времени и представляет собой временной срез. Значение в каждом бине представляет число инцидентов или записей, которые присутствуют в определенном местоположении и определенном временном интервале.

    Каждый бин содержит идентификатор местоположения, идентификатор временного шага и количество.

  • Данный инструмент анализирует вариабельность во Входном кубе пространства-времени netCDF, используя пространственно-временную интерпретацию статистики Anselin Локальный индекс Морана I.

  • Выходные объекты добавляются на панель Таблице содержания и представляют обобщенный результат анализа пространства-времени для всех проанализированных местоположений. Если вы укажете Полигональную маску анализа, будут проанализированы только те местоположения, которые попадают в пределы маски анализа; в ином случае будут проанализированы местоположения, которые имеют как минимум одну точку в как минимум одном временном интервале.

    Местоположения куба с данными и без них

  • Кроме создания Выходных объектов, отчет об анализе записывается в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывающую кнопку Открыть всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете также получить доступ к сообщениям предыдущего запуска инструмента с помощью Истории геообработки на панели Каталог.

  • Инструмент Анализ локальных выбросов идентифицирует статистически значимые кластеры и выбросы в контексте пространства и времени. См. раздел Более подробно о работе инструмента Анализ локальных выбросов, чтобы получить дополнительные сведения об определениях выходных категорий по умолчанию и об алгоритмах, использующихся в этом инструменте анализа.

  • Для идентификации кластеров и выбросов в кубе пространства-времени, инструмент использует пространственно-временную интерпретацию статистики Anselin Локальный индекс Морана I, при этом значение каждого бина сопоставляется со значениями в соседних бинах.

  • Чтобы идентифицировать бины, которые будут включены в каждую окрестность анализа, инструмент сначала выявляет бины, которые попадают в заданное Определение пространственных взаимоотношений. Затем для каждого бина определяются бины, расположенные в том же местоположении, но в пределах N предшествующих временных шагов, где N – Временной шаг окрестности, указанный во входных параметрах.

  • Выбор параметра Определение пространственных взаимоотношений должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Чем более точно вы сможете смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Рекомендации см. в разделе Выбор Концептуализации пространственных отношений: рекомендации.

  • По умолчанию для параметра Определение пространственных взаимоотношений устанавливается Фиксированное расстояние. Бин считается соседним, если его центроид попадает в указанные вами пределы Расстояния окрестности, а его временной интервал попадает в пределы Временного шага окрестности. Если вы не указываете Расстояние окрестности, оно будет рассчитано по умолчанию на основании пространственного распределения ваших данных. Если вы не указываете Интервал временного шага, то инструмент будет использовать значение по умолчанию, которое составляет 1 интервал временного шага.

  • Параметр Число соседей может замещать Расстояние соседства для опции Фиксированное расстояние либо расширять поиск соседей для опций Только соседние ребра и Углы соседних ребер. В этих случаях Число соседей используется, как минимальное значение. Например, если вы зададите Фиксированное расстояние с опцией Расстояние соседства равным 10, и значение 3 для параметра Количество соседей, то у каждого из бинов будет минимум по 3 пространственных соседа, даже если для того, чтобы найти их, пришлось бы увеличить Расстояние соседства. Расстояние увеличивается только в тех случаях, где минимальное Количество соседей не найдено. Точно так же с опциями смежности: для бинов с меньшим этого числа смежных соседей будут выбраны дополнительные соседи на основе близости центроидов.

  • Значение Временного шага окрестности – это количество интервалов временных шагов, включенных в окрестность анализа. Если интервал временного шага в вашем кубе составляет 3 месяца, и вы указали значение 2 для параметра Временной шаг окрестности – все бины, расположенные в пределах Определения пространственных взаимоотношений и все связанные с ними бины в двух предшествующих интервалах временных шагов (в совокупности 9 месяцев) будут включены в окрестность анализа.

  • Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений. Для каждой перестановки, значения, окружающие каждый бин, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I. Результат референсного распределения значений затем сравнивается с наблюдаемым индексом Морана I для определения вероятного нахождения наблюдаемого значения в случайном распределении. По умолчанию используется 499 перестановок; однако распределение случайной выборки улучшается при увеличении числа перестановок, что повышает точность псевдо p-значений.

  • Если параметр Число перестановок имеет значение 0, в результате получается обычное p-значение, вместо псевдо p-значения.

  • Перестановки, используемые этим инструментом, могут пользоваться преимуществом увеличения производительности, доступным в системе, использующей несколько CPU (или многоядерные CPU). Инструмент по умолчанию будет использовать 50% доступных процессоров, но количество используемых процессоров может быть увеличено или уменьшено с помощью настройки среды Коэффициент параллельной обработки. Увеличение скорости обработки особенно заметно в больших кубах пространство-время или при запуске инструмента с большим количеством перестановок.

  • Слой Полигональной маски анализа может содержать один или несколько полигонов, определяющих область анализа. Эти полигоны определяют область, в которой могут встретиться анализируемые точки, и исключают области, в которых точки для анализа не встречаются. Например, если вы анализируете ограбления в жилых кварталах, вы можете использовать Полигональную маску анализа чтобы исключить крупные водоемы, парки и другие области, где нет жилых домов.

  • Полигон маски для анализа пересекается с экстентом Входного куба Пространство-Время, но не выходит за пределы куба.

  • Если Полигональная маска анализа, которую вы используете для задания области изучения, покрывает область, выходящую за границы экстента входных объектов, которые были использованы для первоначального создания куба, может потребоваться заново создать куб, используя эту Полигональную маску анализа как параметр среды Экстент. Это позволит гарантировать, что вся область, покрываемая Полигональной маской анализа, будет включена в инструмент Анализ локальных выбросов. Используя Полигональную маску анализа в качестве параметра среды Экстент во время создания куба можно гарантировать, что куб будет соответствовать экстенту Полигональной маски анализа.

  • Этот инструмент создает новый выходной класс объектов со следующими атрибутами для каждого местоположения в кубе пространства-времени. Эти поля могут использоваться для пользовательской визуализации выходных данных. Подробные сведения о дополнительных результатах анализа см. в разделе Более подробно о работе инструмента Анализ локальных выбросов.
    • Number of Outliers
    • Percentage of Outliers
    • Number of Low Clusters
    • Percentage of Low Clusters
    • Number of Low Outliers
    • Percentage of Low Outliers
    • Number of High Clusters
    • Percentage of High Clusters
    • Number of High Outliers
    • Percentage of High Outliers
    • местоположения с No Spatial Neighbors
    • местоположения с Outlier in the Most Recent Time Step
    • Cluster Outlier Type
    • и дополнительная суммарная статистика
  • Cluster Outlier Type будет всегда обозначать статистически значимые кластеры и выбросы для 95-процентного доверительного интервала, а значения в этом поле будут приведены только для статистически значимых бинов. Эта значимость отражает Коррекцию FDR.

  • По умолчанию метод отображения Выходного класса пространственных объектов основывается на значениях в поле CO_TYPE и показывает статистически значимые местоположения. Он будет отображать местоположения, которые являются частью значимых кластеров HH, HL, выбросов HL и LH, или классифицированных во времени как Несколько типов.
  • Чтобы обеспечить наличие по крайней мере 1 временного соседства для каждого местоположения, Локальный индекс Морана не вычисляется для первого временного среза. Значения бинов в первом временном срезе, тем не менее, включаются в вычисление глобального среднего.

  • Запуск инструмента Анализ локальных выбросов позволяет добавить результаты обратно в файл netCDF, представляющий Входной куб Пространство-Время. Каждый бин анализируется совместно с бинами в ближайшей окрестности для измерения кластеризации как высокого, так и низкого значений, и для определения пространственных и временных выбросов в этих кластерах. В результате этого анализа получается локальный индекс Морана I, псевдо p-значение (или p-значение, если не используются перестановки), и кластер или тип выброса (CO_TYPE) для каждого бина в кубе Пространство-Время.

    Сводные расчеты по переменным, которые добавляются ко Входному кубу Пространство-Время , перечислены ниже:

    Имя переменнойОписаниеИзмерение

    OUTLIER_{ANALYSIS_VARIABLE}_INDEX

    Вычисленный локальный индекс I Морана.

    Три измерения: одно значение локального индекса I Морана для каждого бина в кубе пространство-время.

    OUTLIER_{ANALYSIS_VARIABLE}_PVALUE

    Статистика Anselin Локальный индекс I Морана псевдо p-значение или p-значение, измеряющее статистическую значимость значения локального индекса Морана I.

    Три измерения: одно p-значение или псевдо p-значение для каждого бина в кубе пространство-время.

    OUTLIER_{ANALYSIS_VARIABLE}_TYPE

    Полученный тип категории, позволяющий различить статистически значимый кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL) и выброс, в котором низкое значение окружено в основном высокими значениями (LH).

    Три измерения: один кластер или тип выброса для каждого бина в кубе пространство-время. Бины классифицируются с применением коррекции FDR.

    OUTLIER_{ANALYSIS_VARIABLE}

    _HAS_SPATIAL_NEIGHBORS

    Обозначает местоположения, не имеющие пространственных соседей, а также те, которые основываются только на временных соседях.

    Два измерения: одна классификация для каждого местоположения. Анализ местоположений, не имеющих пространственных соседей, проводит к вычислениям, основанных только на временных соседях.

Параметры

ПодписьОписаниеТип данных
Входной куб Пространство-Время

Куб netCDF для анализа. У этого файла должно быть расширение (.nc), и он должен быть создан с помощью инструментов Создать куб Пространство-Время по агрегации точек или Создать куб Пространство-Время из заданных объектов.

File
Переменная анализа

Имя числовой переменной в файле netCDF, которую вы хотите проанализировать.

String
Выходные объекты

Выходной класс объектов, содержащий местоположения, которые рассматриваются как статистически значимые кластеры или выбросы.

Feature Class
Расстояние до соседних объектов
(Дополнительный)

Пространственный экстент области анализа соседей. Это значение определяет, какие объекты будут проанализированы вместе, чтобы оценить локальное группирование в модели пространство-время.

Linear Unit
Интервал шкалы времени для соседних объектов

Количество интервалов временных шагов для включения в окрестность анализа. Это значение определяет, какие объекты будут проанализированы вместе, чтобы оценить локальное группирование в модели пространство-время.

Long
Число перестановок
(Дополнительный)

Число случайных перестановок для вычисления псевдо p-значений. Число перестановок по умолчанию - 499. Если выбрано 0 перестановок, будет вычислено стандартное p-значение.

  • 0 —Перестановки не используются, вычисляется стандартное p-значение.
  • 99 —С 99 перестановками, минимально возможное псевдо p-значение равно 0.01, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 199 —С 199 перестановками, минимально возможное псевдо p-значение равно 0.005, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 499 —С 499 перестановками, минимально возможное псевдо p-значение равно 0.002, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 999 —С 999 перестановками, минимально возможное псевдо p-значение равно 0.001, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 9999 —С 9999 перестановками, минимально возможное псевдо p-значение равно 0.0001, а все остальные псевдо p-значения будут четным произведением этого значения.
Long
Полигональная маска анализа
(Дополнительный)

Полигональный класс объектов с одним или несколькими полигонами, определяющими область анализа. Вы можете использовать полигональную маску анализа, например, для того, чтобы исключить из анализа большое озеро. Все бины во Входном кубе Пространство-Время, находящиеся вне пределов маски, не будут участвовать в анализе.

Этот параметр используется только для сетчатых кубов.

Feature Layer
Определение пространственных взаимоотношений
(Дополнительный)

Определяет, как заданы пространственные отношения между бинами.

  • Фиксированное расстояние — Каждый бин анализируется в контексте соседних. Соседние бины в пределах указанного критического расстояния (Расстояние соседства) получают вес 1 и влияют на расчеты для целевого бина. Соседние бины, которые выходят за пределы критического расстояния, получают значение веса, равное нулю, и не влияют на вычисления целевого бина.
  • Ближайшая окрестность K — Ближайшие k бинов включаются в анализ для целевого бина, где k – определенный числовой параметр.
  • Только совпадающие ребра — Только соседние бины с общими ребрами будут влиять на вычисления для целевого полигонального бина.
  • Совпадающие ребра и углы — Бины с общими ребрами или узлами будут влиять на вычисления для целевого полигонального бина.
String
Число пространственных соседей
(Дополнительный)

Целое число, определяющее минимальное или конкретное число соседей, которые будут включаться в вычисления для целевого бина. В случае K ближайших соседей у каждого бина будет число соседей, в точности равное заданному. В случае Фиксированного расстояния у каждого бина объект будет количество соседей, равное указанному значению или превышающее его (для этого, если потребуется, Расстояние соседства будет временно увеличено). Когда выбран один из вариантов смежности, каждому бину будет присвоено это минимальное число соседей. Для бинов с меньшим числом соседей, чем число соседей со смежными границами, дополнительное количество соседей определяется по принципу близости центроидов объектов.

Long
Определить глобальное окно
(Дополнительный)

Статистика Локальный индекс I Морана работает путем сравнения локальной статистики, вычисленной из окрестности для каждого бина, с глобальным значением. Этот параметр можно использовать для управления тем, какие ячейки используются для вычисления глобального значения.

  • Весь куб —Каждый соседний объект анализируется по сравнению со всем кубом. Это значение по умолчанию
  • Интервал шкалы времени для соседних объектов —Каждый соседний объект анализируется в сравнении с ячейками, содержащимися в заданном Интервале шкалы времени для соседних объектов.
  • Отдельный временной шаг —Каждый соседний объект анализируется в сравнении с бинами в том же временном шаге.
String

arcpy.stpm.LocalOutlierAnalysis(in_cube, analysis_variable, output_features, {neighborhood_distance}, neighborhood_time_step, {number_of_permutations}, {polygon_mask}, {conceptualization_of_spatial_relationships}, {number_of_neighbors}, {define_global_window})
ИмяОписаниеТип данных
in_cube

Куб netCDF для анализа. У этого файла должно быть расширение (.nc), и он должен быть создан с помощью инструментов Создать куб Пространство-Время по агрегации точек или Создать куб Пространство-Время из заданных объектов.

File
analysis_variable

Имя числовой переменной в файле netCDF, которую вы хотите проанализировать.

String
output_features

Выходной класс объектов, содержащий местоположения, которые рассматриваются как статистически значимые кластеры или выбросы.

Feature Class
neighborhood_distance
(Дополнительный)

Пространственный экстент области анализа соседей. Это значение определяет, какие объекты будут проанализированы вместе, чтобы оценить локальное группирование в модели пространство-время.

Linear Unit
neighborhood_time_step

Количество интервалов временных шагов для включения в окрестность анализа. Это значение определяет, какие объекты будут проанализированы вместе, чтобы оценить локальное группирование в модели пространство-время.

Long
number_of_permutations
(Дополнительный)

Число случайных перестановок для вычисления псевдо p-значений. Число перестановок по умолчанию - 499. Если выбрано 0 перестановок, будет вычислено стандартное p-значение.

  • 0Перестановки не используются, вычисляется стандартное p-значение.
  • 99С 99 перестановками, минимально возможное псевдо p-значение равно 0.01, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 199С 199 перестановками, минимально возможное псевдо p-значение равно 0.005, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 499С 499 перестановками, минимально возможное псевдо p-значение равно 0.002, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 999С 999 перестановками, минимально возможное псевдо p-значение равно 0.001, а все остальные псевдо p-значения будут четным произведением этого значения.
  • 9999С 9999 перестановками, минимально возможное псевдо p-значение равно 0.0001, а все остальные псевдо p-значения будут четным произведением этого значения.
Long
polygon_mask
(Дополнительный)

Полигональный класс объектов с одним или несколькими полигонами, определяющими область анализа. Вы можете использовать полигональную маску анализа, например, для того, чтобы исключить из анализа большое озеро. Все бины in_cube, находящиеся вне пределов маски, не будут участвовать в анализе.

Этот параметр используется только для сетчатых кубов.

Feature Layer
conceptualization_of_spatial_relationships
(Дополнительный)

Определяет, как заданы пространственные отношения между бинами.

  • FIXED_DISTANCEКаждый бин анализируется в контексте соседних. Соседние бины в пределах указанного критического расстояния (neighborhood_distance) получают вес 1 и влияют на расчеты для целевого бина. Соседние бины, которые выходят за пределы критического расстояния, получают значение веса, равное нулю, и не влияют на вычисления целевого бина.
  • K_NEAREST_NEIGHBORSБлижайшие k бинов включаются в анализ для целевого бина, где k – определенный числовой параметр.
  • CONTIGUITY_EDGES_ONLYТолько соседние бины с общими ребрами будут влиять на вычисления для целевого полигонального бина.
  • CONTIGUITY_EDGES_CORNERSБины с общими ребрами или узлами будут влиять на вычисления для целевого полигонального бина.
String
number_of_neighbors
(Дополнительный)

Целое число, определяющее минимальное или конкретное число соседей, которые будут включаться в вычисления для целевого бина. В случае K_NEAREST_NEIGHBORS каждый бин будет иметь это точно заданное число соседей. В случае FIXED_DISTANCE у каждого бина будет по крайней мере это заданное количество соседей, (для этого, если потребуется, neighborhood_distance будет временно увеличено). Когда выбран один из вариантов смежности, каждому бину будет присвоено это минимальное число соседей. Для бинов с меньшим числом соседей, чем число соседей со смежными границами, дополнительное количество соседей определяется по принципу близости центроидов объектов.

Long
define_global_window
(Дополнительный)

Статистика Локальный индекс I Морана работает путем сравнения локальной статистики, вычисленной из окрестности для каждого бина, с глобальным значением. Этот параметр можно использовать для управления тем, какие ячейки используются для вычисления глобального значения.

  • ENTIRE_CUBEКаждый соседний объект анализируется по сравнению со всем кубом. Это значение по умолчанию
  • NEIGHBORHOOD_TIME_STEPКаждый соседний объект анализируется в сравнении с ячейками, содержащимися в заданном Интервале шкалы времени для соседних объектов.
  • INDIVIDUAL_TIME_STEPКаждый соседний объект анализируется в сравнении с бинами в том же временном шаге.
String

Пример кода

LocalOutlierAnalysis, пример 1 (окно Python)

В следующем скрипте окна Python показано, как используется инструмент LocalOutlierAnalysis.

# LocalOutlierAnalysis of homicides in a metropolitan area
import arcpy
arcpy.env.workspace = r"C:\STPM"
arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles", 2, 499, "#", "FIXED_DISTANCE", "3", "NEIGHBORHOOD_TIME_STEP")
LocalOutlierAnalysis, пример 2 (автономный скрипт Pyhon)

Следующий автономный окна Python скрипт демонстрирует, как использовать инструмент LocalOutlierAnalysis.

# Create Space Time Cube by aggregating homicide incidents in a metropolitan area

# Import system modules
import arcpy

# Set property to overwrite existing output, by default
arcpy.env.overwriteOutput = True

# Local variables...
workspace = r"C:\STPM"

try:
    # Set the current workspace (to avoid having to specify the full path to the feature 
    # classes each time)
    arcpy.env.workspace = workspace

    # Create Space Time Cube by aggregating homicide incident data with 3 months and 3 miles settings
    # Process: Create Space Time Cube By Aggregating Points
    cube = arcpy.CreateSpaceTimeCube_stpm("Homicides.shp", "Homicides.nc", "MyDate", "#", 
                                          "3 Months", "End time", "#", "3 Miles", "Property MEDIAN SPACETIME; Age STD ZEROS", "HEXAGON_GRID")

    # Create a polygon that defines where incidents are possible  
    # Process: Minimum Bounding Geometry of homicide incident data
    arcpy.MinimumBoundingGeometry_management("Homicides.shp", "bounding.shp", "CONVEX_HULL",
                                             "ALL", "#", "NO_MBG_FIELDS")

    # Local Outlier Analysis of homicide incident cube using 5 Miles neighborhood 
    # distance and 2 neighborhood time step with 499 permutations to detect outliers
    # Process: Local Outlier Analysis
    loa = arcpy.LocalOutlierAnalysis_stpm("Homicides.nc", "COUNT", "LOA_Homicides.shp", "5 Miles",
                                          2, 499, "bounding.shp", "FIXED_DISTANCE")
except arcpy.ExecuteError:
    # If any error occurred when running the tool, print the messages
    print(arcpy.GetMessages())

Связанные разделы