Как работает инструмент Оптимизированный анализ выбросов

Оптимизированный анализ выбросов выполняет вычисления Анализа кластеров и выбросов (Anselin Локальный индекс Морана I), используя параметры, извлеченные из характеристик ваших входных данных. Аналогичным образом, как автоматические настройки на цифровой камере используют вспышку и объект вместо наземных измерений, чтобы определить подходящую апертуру, скорость затвора и фокус, таким же образом инструмент Оптимизированный анализ выбросов обрабатывает ваши данные, чтобы получить настройки, которые позволят получить оптимальные результаты горячих точек. Если, например, набор данных Входные объекты содержит данные точек инцидентов, инструмент агрегирует инциденты в объекты с весами. Используя распределение объектов с весами, инструмент определит соответствующий вашему анализу масштаб. Классифицированные типы, отображаемые в Выходных объектах, будут автоматически настроены для множественного тестирования и пространственной зависимости с использованием метода коррекции FDR (False Discovery Rate).

Каждое из решений, которое принимает инструмент, чтобы выдать наилучшие возможные результаты, выводится в виде сообщения во время работы инструмента, а объяснение этих решений приводится ниже.

Аналогично камере, которая имеет режим ручной настройки, который позволяет вам переписать автоматические настройки, инструмент Анализ кластеров и выбросов (Anselin Локальный индекс Морана I) дает вам полный контроль над всеми опциями параметра. Запуская инструмент Оптимизированный анализ выбросов и запоминая настройки, которые он использует, вы сможете определить параметры, которые дадут вам полный контроль над инструментом Анализ кластеров и выбросов (Anselin Локальный индекс Морана I).

Рабочий процесс инструмента Оптимизированный анализ выбросов включает следующие этапы. Вычисления и алгоритмы, используемые в каждом из этих компонентов, описаны ниже.

Оценка исходных данных

На первом этапе Входные объекты и дополнительное Поле анализа, Ограничивающие полигоны, определяющие возможное расположение инцидентов и Метод агрегирования данных инцидентов тщательно проверяются, чтобы убедиться, что используется достаточное количество объектов и присутствует разница в тех значениях, которые будут анализироваться. Если инструмент находит записи с поврежденной или потерянной геометрией, или, если указано Поле анализа и имеются пустые значения, то связанные записи будут перечислены в качестве неверных записей и исключены из анализа.

Инструмент Оптимизированный анализ выбросов использует статистику Anselin Локальный индекс Морана I и, аналогично многим методам статистики, результаты могут быть недостоверными, если используется менее 30 объектов. Если вы предоставляете полигональные Входные объекты или точечные Входные объекты и Поле анализа, вам необходимо наличие как минимум 30 объектов, чтобы использовать этот инструмент. Минимальное число Полигонов для агрегирования инцидентов в точки также равняется 30. Слой объектов, представляющий Ограничивающие полигоны, определяющие возможное расположение инцидентов может содержать один или несколько полигонов.

Статистика Anselin Локальный индекс Морана I также требует, чтобы значения были связаны с каждым пространственным объектом, который она анализирует. Если предоставленные вами Входные объекты отображают данные инцидентов (когда вы не предоставляете Поле анализа), инструмент будет агрегировать инциденты, и количество инцидентов будет использоваться в качестве значений для анализа. После окончания процесса агрегирования, должно все еще оставаться минимум 30 объектов, так что с данными инцидентов, с которыми вы начнете работать, будет связано более 30 объектов. В приведенной ниже таблице показано минимальное число объектов для каждого Метода агрегирования случайных данных:

Минимальное число инцидентовМетод агрегированияМинимальное число объектов после агрегирования

60

Подсчет количества инцидентов внутри сетки и Подсчет количества инцидентов внутри гексагональной сетки без указания Ограничивающих полигонов, определяющих возможное расположение инцидентов

30

30

Подсчет количества инцидентов внутри сетки и Подсчет количества инцидентов внутри гексагональной сетки, когда вы задаете класс объектов для параметра Ограничивающие полигоны, определяющие возможное расположение инцидентов

30

30

Подсчет количества инцидентов внутри полигонов агрегации

30

60

Замыкание ближайших инцидентов для создания взвешенных точек

30

Статистика Anselin Локальный индекс Морана I также была разработана для Поля анализа с множеством различных значений. Например, статистика не подходит для бинарных данных. Инструмент Оптимизированный анализ выбросов проверяет Поле анализа, чтобы убедиться, что значения имеют хотя бы некоторую разницу.

Выбросы по местоположению – это объекты, которые находятся намного дальше от соседних объектов, чем большинство объектов в наборе данных. Представьте городскую среду с большими, густонаселенными городами в центре, и маленькими, малонаселенными городами вокруг. Если вы вычисляете среднее расстояние до ближайшего соседа для этих городов, вы увидите, что результат может быть меньше, если вы исключили периферийные выбросы по местоположению и сосредоточились только на городах около центра городской среды. Это пример того, как выбросы по местоположению могут иметь сильное влияние на пространственные статистики, такие как Среднее ближайшее соседство. Поскольку инструмент Оптимизированный анализ выбросов использует вычисление среднего и медианного расстояния до ближайшего соседа для агрегирование, а также для идентификации подходящего масштаба анализа, компонент Оценка исходных данных инструмента также сможет идентифицировать любой выброс по местоположению во Входных объектах или Полигоны для агрегирования инцидентов в точки и сможет сообщить их количество. Чтобы сделать это, инструмент вычисляет среднее расстояние от каждого объекта до ближайшего к нему соседнего объекта и выполняет оценку распределения всех этих расстояний. Объекты, находящиеся на расстоянии более трех стандартных отклонений от своего ближайшего несовпадающего соседа, считаются выбросами по местоположению.

Агрегирование инцидентов

Для данных инцидентов следующий компонент в рабочем процессе агрегирует ваши данные. Существует три возможных подхода на основе выбранного вами Метода агрегирования случайных данных. Алгоритмы для каждого из этих подходов описаны ниже.

  • Подсчет количества инцидентов внутри сетки, или Подсчет количества инцидентов внутри гексагональной сетки:
    1. Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события.
    2. Сравните плотность N Входных объектов с плотностью N случайных объектов, на основании минимального ограничивающего полигона Входных объектов (в геодезических метрах). Вычисляется расстояние среднего ближайшего соседства для случайного поднабора N точек в пределах минимального ограничивающего полигона. Если значение среднего ближайшего соседства, умноженное на 2 для случайно распределенных объектов меньше, чем максимальный экстент области изучения, деленный на 100, набор данных считается уплотненным и Размер ячейки сетки вычисляется следующим образом – максимальное измерение (длина или ширина) экстента делится на 100.
    3. Если набор данных не признается уплотненным, следуя описанному выше методу, в качестве Размера ячейки используется среднее или медиана расстояния ближайшего соседства, умноженное на 2. Среднее расстояние до ближайшего соседнего объекта (AAN) для всех уникальных входных точек, исключая локальные выбросы, вычисляется с помощью суммирования расстояний от каждого объекта до ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка (также исключая выбросы). Большее измерение (ANN или MNN), умноженное на 2, используется в качестве Размера ячейки сетки.
    4. Создайте ячейку регулярной или гексагональной сетки, используя рассчитанный Размер ячейки и разместите сетку поверх точек инцидентов.
    5. Посчитайте инциденты в каждой ячейке полигона.
    6. Когда вы указываете Ограничивающие полигоны, определяющие места возможных инцидентов, сохраняются все ячейки полигонов в пределах ограничивающих полигонов. Когда вы не указываете Ограничивающие полигоны, определяющие места возможных инцидентов, ячейки полигонов с нулевым числом инцидентов будут удалены.
    7. Если процесс агрегирования выдает результат менее 30 полигональных ячеек, или если количество во всех полигональных ячейках одинаковое, вы получите сообщение о том, что заданные вами Входные объекты не подходят для выбранного Метода агрегирования данных инцидентов; в противном случае, компонент агрегирования для данного метода выполнится успешно.
  • Подсчет количества инцидентов внутри полигонов агрегации:
    1. Для этого Метода агрегирования данных инцидентов требуется векторный слой Полигоны для агрегирования инцидентов в точки. Эти полигоны агрегирования перекрывают точки инцидентов.
    2. Посчитайте инциденты внутри каждого полигона.
    3. Убедитесь, что присутствует достаточное количество различных значений в количестве инцидентов для анализа. Если процесс агрегирования в результате получит, что все полигоны имеют одинаковое количество инцидентов, вы получите сообщение о том, что данные не подходят для выбранного Метода агрегирования данных инцидентов.
  • Замыкание ближайших инцидентов для создания взвешенных точек:
    1. Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события. Посчитайте количество уникальных объектов расположений (UL).
    2. Вычислите среднее и медианное расстояния до ближайшего соседа для всех точек с уникальными местоположениями, исключая выбросы по местоположению. Среднее расстояние до ближайшего соседнего объекта (AAN) вычисляется с помощью суммирования расстояний до каждого ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка.
    3. Установите начальное расстояние замыкания (SD) на наименьшее значение из ANN и MNN.
    4. Настройте расстояние замыкания на случай совпадающих точек. Scalar = (UL/N), где N – это количество объектов в слое Входных объектов. Настроенное расстояние замыкания станет равным SD * Scalar.
    5. Интегрировать точки инцидентов с помощью трех итераций, сначала используя интервалы настроенного расстояния замыкания в 0.10, затем в 0.25, и в итоге интегрируя с расстоянием замыкания, равным полному настроенному расстоянию замыкания. Выполнение шага интегрирования в эти три захода минимизирует искажение исходных местоположений точек.
    6. Сверните замкнутые точки, получив отдельную точку для каждого местоположения с весом, показывающим количество инцидентов, которые были замкнуты вместе. Эта часть процесса агрегирования использует метод Собрать события.
    7. Если процесс агрегирования выдает результат менее 30 взвешенных точек, или если количество для всех этих точек одинаковое, вы получите сообщение о том, что заданные вами Входные объекты не подходят для выбранного Метода агрегирования данных инцидентов; в противном случае, компонент агрегирования для данного метода выполнится успешно.

Масштаб анализа

Этот следующий шаг рабочего процесса Оптимизированного анализа выбросов применяется к объектам с весами, либо в случае, когда вы предоставляете Входные объекты с Полем анализа или если с помощью метода Агрегирования данных инцидентов получены веса из количества инцидентов. Следующий шаг – идентифицировать подходящий масштаб анализа. Идеальный масштаб анализа – это расстояние, которое совпадает с масштабом задаваемого вопроса (например, если вы ищете области кластеров и выбросов для вспышки заболевания и знаете, что вектор москитов имеет диапазон в 10 миль, то использование 10-мильного расстояния будет наиболее подходящим). Когда вы не можете определить какое-либо конкретное расстояние для использования в качестве масштаба анализа, существует несколько стратегий, чтобы помочь вам в выборе. Инструмент Оптимизированный анализ выбросов использует данные стратегии.

Первая рассматриваемая стратегия – это Пошаговая пространственная автокорреляция. Когда вы видите пространственную кластеризацию в ландшафте, вы видите доказательства работы внутренних пространственных процессов. Инструмент Пошаговая пространственная автокорреляция выполняет статистику Глобальный индекс Морана I с последовательностью увеличивающимися расстояниями для измерения интенсивности пространственной кластеризации для каждого расстояния. Локальные выбросы исключаются из вычислений начального расстояния и приращений, получаемых с помощью инструмента Пошаговая пространственная автокорреляция. Интенсивность кластеризации определяется z-оценкой. Обычно при увеличении расстояния растет и z-оценка, что указывает на повышенную интенсивность кластеризации. Однако на определенном расстоянии возникает пик z-оценки. Пиковые z-оценки соответствует расстояниям, при которых пространственные процессы, обеспечивающие пространственную кластеризацию, наиболее выражены. Инструмент Оптимизированный анализ выбросов ищет пиковые расстояния, используя Пошаговую пространственную автокорреляцию. Если пиковое расстояние найдено, это расстояние становится масштабом для анализа. Если найдено несколько пиковых расстояний, будет выбрано первое пиковое расстояние.

Если не найдено ни одного пикового расстояния, Оптимизированный анализ выбросов исследует пространственное распределение объектов и вычисляет среднее расстояние, которое будет присваивать K соседей каждому объекту. K вычисляется, как 0.05 * N, где N – это количество объектов в слое Входных объектов. K будет выбрано таким образом, чтобы оно не было меньше 3 или больше 30. Если среднее расстояние, которое присваивает K соседей, превышает одно стандартное расстояние, масштаб анализа будет установлен на одно стандартное расстояние; в противном случае, оно будет равно среднему расстоянию K соседа.

Шаг Пошаговой пространственной автокорреляции может выполняться в течение долгого времени для больших, плотных наборов данных. Соответственно, когда находится объект с 500 или более соседями, пошаговый анализ пропускается и среднее расстояние, которое будет присваивать 30 соседей, вычисляется и используется в качестве масштаба анализа.

Расстояние, отражающее масштаб анализа, будет показано в виде сообщений во время выполнения инструмента и будет использовано для выполнения анализа кластеров и выбросов. Это расстояние соответствует параметру Диапазон расстояний или пороговое расстояние, который используется инструментом Анализ кластеров и выбросов (Anselin локальный индекс Морана I).

Для объекты, у которых нет соседей в пределах указанного расстояния Диапазон расстояний увеличивается таким образом, чтобы обнаружить хотя бы один соседний объект для включение в вычисления.

Анализ кластеров и выбросов

К этому моменту рабочий процесс Оптимизированного анализа выбросов выполнил все проверки и настройки параметров. Следующий шаг – запуск статистики Anselin локальный индекс Морана I. Подробные сведения о математической основе этой статистики приведены в разделе Как работает Анализ кластеров и выбросов (Anselin Локальный индекс Морана I). Результаты статистики Anselin Локальный индекс Морана I будут автоматически скорректированы для множественного тестирования и пространственной зависимости, используя метод коррекции FDR. Сообщения, которые записываются во время выполнения инструмента, суммируют число объектов, идентифицированных в качестве кластеров высоких и низких значений, так же как и выбросов высоких и низких значений после применения коррекции FDR.

Выходные данные

Последним этапом Оптимизированного анализа выбросов является создание Выходных объектов. Если Входные объекты отображают данные инцидентов, требующие агрегирования, то Выходные объекты будут отображать агрегированные объекты с весами (регулярная или гексагональная сетка или полигоны агрегирования, которые вы указали в параметре Полигоны для агрегирования инцидентов в точки, или точки с весами). Для каждого объекта вычисляется значение локального индекса Морана (I) (LMiIndex), z-оценка, p-значение, тип кластер или выброс (COType) и число соседних объектов, включенных в вычисление.

Дополнительные ресурсы

Anselin, Luc. "Local Indicators of Spatial Association – LISA," Geographical Analysis 27(2): 93–115, 1995.

На странице описания пространственной статистики имеются кроткие видеоролики, учебные пособия, онлайн-семинары, статьи и другие материалы, которые помогут вам начать работу с пространственной статистикой.