Кластеризация с высокими/низкими значениями (Глобальный индекс Getis-Ord G) (Пространственная статистика)

Краткая информация

Измеряет степень кластеризации высоких или низких значений, используя статистический показатель Общий индекс Getis-Ord G.

Более подробно о Кластеризации с высокими/низкими значениями (Глобальный индекс Getis-Ord G)

Иллюстрация

Иллюстрация инструмента Кластеризация с высокими/низкими значениями (Глобальный индекс Getis-Ord G)

Использование

  • Инструмент Кластеризация с высокими/низкими значениями возвращает четыре значения: Наблюдаемое общее G, Ожидаемое общее G, z-оценка и p-значение. Эти значения записываются в сообщениях в нижней части панели Геообработка, и они передаются в качестве производных выходных данных для использования в моделях и скриптах. Вы можете получить доступ к сообщениям, удерживая курсор над индикатором выполнения, щелкнув на кнопке всплывающего окна или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента через историю геообработки. Дополнительно вы можете использовать этот инструмент для создания файла отчета HTML с графическим представлением результатов. Путь к файлу отчета будет доступен в сообщениях, в которых будет содержаться вся информация о параметрах запущенного инструмента. Щелкните этот путь, чтобы открыть файл отчета.

  • В Входном поле должен содержаться массив неотрицательных значений. Если Входное поле содержит отрицательные значения, появится сообщение об ошибке. В дополнение, с математической точки зрения, проводимые статистические операции требуют, чтобы исходные переменные варьировали; например, анализ не будет произведен, если все входящие значения равны 1. Чтобы использовать данный инструмент для анализа пространственных закономерностей случайных данных, попробуйте агрегировать ваши случайные данные. Для анализа пространственных закономерностей случайных данных может также использоваться инструмент Оптимизированный анализ горячих точек.

    Примечание:

    Инцидентными данными являются точки, представляющие события (преступление, дорожно-транспортное происшествие) или объекты (деревья, магазины), по отношению к которым ваше внимание концентрируется скорее на их наличии или отсутствии, чем на атрибутах, свойственных каждой такой точке.

  • Z-оценки и р-значения являются измерителями статистической значимости, которая свидетельствует о возможности отклонить нулевую гипотезу. Для этого инструмента нулевая гипотеза утверждает, что значения, связанные с объектами, распределены хаотично.
  • z-оценка основана на вычислении гипотезы нулевой рандомизации. Дополнительные сведения о z-оценке см. в разделе Что такое z-оценка? Что такое p-значение?

  • Чем выше (или ниже) z-оценка, тем сильнее интенсивность кластеризации. Z-оценка около нуля не указывает ни на какое очевидное объединение в кластеры в области исследования. Положительная z-оценка указывает на объединение в кластеры высоких значений. Отрицательная z-оценка указывает на объединение в кластеры низких значений.

  • Когда Входной класс объектов не имеет проекции (т.е. когда координаты заданы в градусах, минутах и секундах), или когда в качестве выходной системы координат используется Географическая система координат, расстояния в этих случаях будут рассчитываться с помощью хордовых измерений. Измерения хордовых расстояний применяются постольку, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний, по крайней мере, для точек, расстояние между которыми в пределах порядка тридцати градусов. Хордовые расстояния основаны на эллипсоиде вращения. Если взять две любые точки на поверхности Земли, то хордовым расстоянием между ними будет длина прямой линии, проходящей через трехмерное тело Земли и соединяющей эти две точки. Хордовые расстояния выражаются в метрах.

    Внимание:

    Следует обязательно производить проецирование ваших данных, если область исследования превышает 30 градусов. Хордовые расстояния не обеспечивают точных оценок геодезических расстояний, превышающих 30 градусов.

  • Когда при анализе используются хордовые расстояния, параметр Диапазон расстояний или пороговое расстояние, если он указывается, должен быть выражен в метрах.

  • Для линейных или полигональных объектов, при расчете расстояний используются центроиды. Для мультиточек, полилиний или полигонов, состоящих их нескольких частей, центроид вычисляется с использованием средневзвешенного центра всех частей объекта. При определении весов точечные объекты имеют равный вес (1). Для линейных объектов это длина сегмента. Для полигональных – площадь.

  • Выбор параметра Определение пространственных взаимоотношений должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Чем более точно вы сможете смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Рекомендации см. в разделе Выбор определения пространственных взаимоотношений: рекомендации. Ниже приведены дополнительные советы:

    • Полоса фиксированных расстояний

      Параметр Диапазон расстояний или пороговое расстояние гарантирует, что каждый объект имеет, по крайней мере, одного соседа. Это важно, но часто значение, вычисленное по умолчанию, не будет являться самым подходящим расстоянием для вашего анализа. В разделе Выбор фиксированного расстояния приведены стратегии, которые помогут определить значение диапазона расстояний, подходящее для вашего анализа.

    • Обратное расстояние или Квадрат обратного расстояния

      Когда для параметра Диапазон расстояний или пороговое расстояние указано значение 0, все объекты считаются соседями всех других объектов. Когда этот параметр остается пустым, применяется пороговое значение по умолчанию.

      Веса для расстояний менее 1 становятся не стабильны после обращения. Следовательно, при взвешивании для объектов, разделенных менее чем одной единицей расстояния, получают вес 1.

      При использовании опций обратного расстояния (Обратное расстояние, Квадрат обратного расстояния и Зона индифферентности), любым двум совпадающим точкам придается значение веса 1 во избежание деления на 0. Это гарантирует, что объекты не будут исключены из анализа.

  • Дополнительные опции для параметра Определение пространственных взаимоотношений, включая 3D- и пространственно-временные отношения доступны при использовании инструмента Построить матрицу пространственных весов. Чтобы эффективно применять дополнительные опции, до выполнения анализа постройте файл с матрицей пространственных весов; выберите Взять пространственные веса из файла для параметра Определение пространственных взаимоотношений, а для параметра Файл матрицы весов задайте путь к файлу с пространственными весами, который вы создали.

  • Слои карты можно использовать для определения Входного класса объектов. Если в слое есть выборка, только выбранные объекты будут включены в анализ.

  • Если указан Файл матрицы весов с расширением .swm, инструмент предполагает получение файла матрицы весов, созданного с помощью инструментов Построить матрицу пространственных весовПостроить матрицу пространственных весов , иначе инструмент ожидает файл матрицы весов в формате ASCII. В некоторых случаях, поведение различно в зависимости от типа использованной матрицы весов:

    • ASCII-файлы с матрицей пространственных весов:
      • Веса используются без изменений. Отсутствующие отношения объект к объекту рассматриваются как нули.
      • Если веса нормализованы, то вероятнее всего, что результаты будут непригодны для анализа выбранного набора. Если вам нужно выполнить анализ выбранного набора данных, конвертируйте ASCII-файл с матрицей весов в SWM-файл, считав данные ASCII-файла в таблицу, используя опцию Конвертировать таблицу инструмента Построить матрицу пространственных весов.
    • Матрица пространственных весов в формате SWM:
      • Если веса уже были нормализованы, то они будут нормализованы вновь для выбранного набора данных. В противном случае они будут использоваться без изменений.

  • Для выполнения анализа с ASCII-файлом с матрицей пространственных весов требуется большой объем памяти. При анализе более 5000 объектов ASCII-файл с матрицей пространственных весов следует конвертировать в SWM-файл. Сначала вы вставляете ваш ASCII-файл с весами в форматированную таблицу (например, с помощью Excel). Затем запустите инструмент Построить матрицу пространственных весов, задав значение Конвертировать таблицу для параметра Определение пространственных взаимоотношений. В результате будет создан SWM-файл с матрицей пространственных весов.

  • Дополнительную информацию о параметрах инструмента см. в справочной статье Моделирование пространственных отношений.

  • Внимание:

    При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.

Параметры

ПодписьОписаниеТип данных
Входной класс пространственных объектов

Класс объектов, для которого будет рассчитываться глобальный индекс G.

Feature Layer
Входное поле

Числовое поле, которое должно быть оценено.

Field
Отображение результата графически
(Дополнительный)

Указывает, будет ли инструмент создавать графическое обобщение результатов.

  • Отмечено: графическое обобщение будет представлено в формате HTML-файла.
  • Не отмечено – результаты не будут представлены в графической форме. Используется по умолчанию.
Boolean
Определение пространственных взаимоотношений

Определяет, как заданы пространственные отношения между объектами.

  • Обратное расстояние — Близко расположенные соседние объекты оказывают большее влияние на вычисления для целевого объекта, нежели удаленные объекты.
  • Обратное расстояние в квадрате — То же самое, что и Обратное расстояние, только угол наклона острее, влияние объектов уменьшается быстрее и лишь ближайшие соседи окажут существенное влияние на вычисления для рассматриваемого объекта.
  • Полоса фиксированных расстояний — Каждый объект анализируется в контексте соседних объектов. Соседние объекты в пределах указанного критического расстояния (Диапазон расстояний или пороговое расстояние) получают вес 1 и влияют на расчеты для целевого объекта. Соседние объекты за пределами указанного критического расстояния получают вес 0 и не оказывают влияния на расчеты для целевого объекта.
  • Зона индифферентности — Объекты, расположенные в пределах указанного критического расстояния (Диапазон расстояний или пороговое расстояние) от целевого объекта, получают вес 1 и влияют на расчеты для него. Как только критическое расстояние превышено, веса (и влияние соседнего объекта на расчеты целевого объекта) начинают уменьшаться с расстоянием.
  • K ближайших соседей —Ближайшие K объектов включаются в анализ, где K – определенный числовой параметр.
  • Только совпадающие ребра — Только соседние полигональные объекты, которые имеют смежную границу или перекрываются, повлияют на расчеты для целевого полигонального объекта.
  • Углы соприкасающихся ребер — Полигональные объекты, которые имеют общую границу, общий узел или перекрываются, повлияют на расчеты для целевого полигонального объекта.
  • Получить пространственные веса из файла — Пространственные отношения определены в файле пространственных весов. Путь к файлу с пространственными весами указан в параметре Файл Матрицы весов.
String
Метод определения расстояния

Определяет, как рассчитываются расстояния от одного объекта до соседнего объекта.

  • Евклидово — Расстояние по прямой линии между двумя точками (как ворона летает)
  • Манхэттенское — Расстояние между двумя точками, измеренное вдоль осей, расположенных под прямым углом друг к другу (городские кварталы); рассчитывается суммированием абсолютных разностей между координатами х и у.
String
Стандартизация

Задает применение стандартизации пространственных весов. Нормализация ряда рекомендуется, независимо от того, распределены ли объекты потенциально предвзято в зависимости от дизайна примера или от установленной схемы агрегации.

  • Нет — Нормализация ряда пространственных весов не применяется.
  • Строка — Пространственные веса нормализуются; каждый вес делится на его сумму ряда (сумму весов всех соседних объектов). Используется по умолчанию.
String
Диапазон расстояний или пороговое расстояние
(Дополнительный)

Задает пороговое значение расстояния для параметров Обратное расстояние и Фиксированное расстояние. Объекты, расположенные вне указанной области, игнорируются при анализе этого объекта. Однако для Зоны индифферентности влияние объектов, расположенных за пределами данного расстояния, сокращается с расстоянием, в то время как влияние тех объектов, которые располагаются в пределах порогового расстояния, распределяется равномерно. Введенное значение расстояния должно совпадать с расстоянием по выходной системе координат.

При использовании концептуализации обратных расстояний для вычисления пространственных отношений значение 0 обозначает, что пороговое расстояние не применялось; когда данный параметр остается пустым, при анализе рассчитывается и применяется пороговое значение по умолчанию. Значение по умолчанию – это Евклидово расстояние, которое гарантирует каждому объекту как минимум 1 соседа.

Этот параметр не оказывает никакого влияния, если выбраны смежные полигоны (Только совпадающие ребра, Совпадающие ребра и углы) или пространственные взаимоотношения – Получить пространственные веса из файла.

Double
Файл матрицы весов
(Дополнительный)

Путь к файлу, который содержит веса, определяющие пространственные и, возможно, временные отношения между объектами.

File
Число соседей
(Дополнительный)

Целое, задающее число соседств, которое будет включено в анализ.

Long

Производные выходные данные

ПодписьОписаниеТип данных
Наблюдаемое общее G

Статистика Наблюдаемое общее G.

Double
Z-оценка

z-оценка.

Double
P-значение

p-значение.

Double
Файл отчета

Файл HTML с графическим представлением результатов.

Файл

arcpy.stats.HighLowClustering(Input_Feature_Class, Input_Field, {Generate_Report}, Conceptualization_of_Spatial_Relationships, Distance_Method, Standardization, {Distance_Band_or_Threshold_Distance}, {Weights_Matrix_File}, {number_of_neighbors})
ИмяОписаниеТип данных
Input_Feature_Class

Класс объектов, для которого будет рассчитываться глобальный индекс G.

Feature Layer
Input_Field

Числовое поле, которое должно быть оценено.

Field
Generate_Report
(Дополнительный)
  • NO_REPORTРезультаты не будут представлены в графической форме. Используется по умолчанию.
  • GENERATE_REPORTГрафическая сводка будет представлена в формате HTML-файла.
Boolean
Conceptualization_of_Spatial_Relationships

Определяет, как заданы пространственные отношения между объектами.

  • INVERSE_DISTANCEБлизко расположенные соседние объекты оказывают большее влияние на вычисления для целевого объекта, нежели удаленные объекты.
  • INVERSE_DISTANCE_SQUAREDТо же самое, что и INVERSE_DISTANCE, только угол наклона острее, влияние объектов уменьшается быстрее, и лишь ближайшие соседи окажут существенное влияние на вычисления для рассматриваемого объекта.
  • FIXED_DISTANCE_BANDКаждый объект анализируется в контексте соседних объектов. Соседние объекты в пределах указанного критического расстояния (Distance_Band_or_Threshold) получают вес 1 и влияют на расчеты для целевого объекта. Соседние объекты за пределами указанного критического расстояния получают вес 0 и не оказывают влияния на расчеты для целевого объекта.
  • ZONE_OF_INDIFFERENCEОбъекты в пределах указанного критического расстояния (Distance_Band_or_Threshold) получают вес 1 и влияют на расчеты для целевого объекта. Как только критическое расстояние превышено, веса (и влияние соседнего объекта на расчеты целевого объекта) начинают уменьшаться с расстоянием.
  • K_NEAREST_NEIGHBORSБлижайшие K объектов включаются в анализ, где K – определенный числовой параметр.
  • CONTIGUITY_EDGES_ONLYТолько соседние полигональные объекты, которые имеют смежную границу или перекрываются, повлияют на расчеты для целевого полигонального объекта.
  • CONTIGUITY_EDGES_CORNERSПолигональные объекты, которые имеют общую границу, общий узел или перекрываются, повлияют на расчеты для целевого полигонального объекта.
  • GET_SPATIAL_WEIGHTS_FROM_FILEПространственные отношения определены в файле пространственных весов. Путь к файлу пространственных весов указан в параметре Weights_Matrix_File.
String
Distance_Method

Определяет, как рассчитываются расстояния от одного объекта до соседнего объекта.

  • EUCLIDEAN_DISTANCEРасстояние по прямой линии между двумя точками (как ворона летает)
  • MANHATTAN_DISTANCEРасстояние между двумя точками, измеренное вдоль осей, расположенных под прямым углом друг к другу (городские кварталы); рассчитывается суммированием абсолютных разностей между координатами х и у.
String
Standardization

Задает применение стандартизации пространственных весов. Нормализация ряда рекомендуется, независимо от того, распределены ли объекты потенциально предвзято в зависимости от дизайна примера или от установленной схемы агрегации.

  • NONEНормализация ряда пространственных весов не применяется.
  • ROWПространственные веса нормализуются; каждый вес делится на его сумму ряда (сумму весов всех соседних объектов). Используется по умолчанию.
String
Distance_Band_or_Threshold_Distance
(Дополнительный)

Задает пороговое значение расстояния для параметров Обратное расстояние и Фиксированное расстояние. Объекты, расположенные вне указанной области, игнорируются при анализе этого объекта. Однако, для ZONE_OF_INDIFFERENCE влияние объектов, расположенных за пределами данного расстояния, сокращается с расстоянием, в то время как влияние тех объектов, которые располагаются в пределах порогового расстояния, распределяется равномерно. Введенное значение расстояния должно совпадать с расстоянием по выходной системе координат.

При использовании концептуализации обратных расстояний для вычисления пространственных отношений значение 0 показывает, что пороговое расстояние не применялось; когда данный параметр остается пустым, при анализе рассчитывается и применяется пороговое значение по умолчанию. Значение по умолчанию – это Евклидово расстояние, которое гарантирует каждому объекту как минимум 1 соседа.

Этот параметр не оказывает никакого влияния, если выбраны смежные полигоны (CONTIGUITY_EDGES_ONLY или CONTIGUITY_EDGES_CORNERS) либо пространственные взаимоотношения – GET_SPATIAL_WEIGHTS_FROM_FILE.

Double
Weights_Matrix_File
(Дополнительный)

Путь к файлу, который содержит веса, определяющие пространственные и, возможно, временные отношения между объектами.

File
number_of_neighbors
(Дополнительный)

Целое, задающее число соседств, которое будет включено в анализ.

Long

Производные выходные данные

ИмяОписаниеТип данных
Observed_General_G

Статистика Наблюдаемое общее G.

Double
ZScore

z-оценка.

Double
PValue

p-значение.

Double
Report_File

Файл HTML с графическим представлением результатов.

Файл

Пример кода

HighLowClustering, пример 1 (окно Python)

В следующем скрипте окна Python показано, как используется инструмент HighLowClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.HighLowClustering_stats("911Count.shp", "ICOUNT", "false", "GET_SPATIAL_WEIGHTS_FROM_FILE", "EUCLIDEAN_DISTANCE", "NONE", "#", "euclidean6Neighs.swm")
HighLowClustering, пример 2 (автономный скрипт)

Следующий автономный Python скрипт демонстрирует, как использовать инструмент HighLowClustering.

# Analyze the spatial distribution of 911 calls in a metropolitan area
# using the High/Low Clustering (Getis-Ord General G) tool
 
# Import system modules
import arcpy
 
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
 
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Copy the input feature class and integrate the points to snap
    # together at 500 feet
    # Process: Copy Features and Integrate
    cf = arcpy.CopyFeatures_management("911Calls.shp", "911Copied.shp",
                         "#", 0, 0, 0)
    integrate = arcpy.Integrate_management("911Copied.shp #", "500 Feet")
    # Use Collect Events to count the number of calls at each location
    # Process: Collect Events
    ce = arcpy.CollectEvents_stats("911Copied.shp", "911Count.shp", "Count", "#")
    # Add a unique ID field to the count feature class
    # Process: Add Field and Calculate Field
    af = arcpy.AddField_management("911Count.shp", "MyID", "LONG", "#", "#", "#", "#",
                     "NON_NULLABLE", "NON_REQUIRED", "#",
                     "911Count.shp")
    
    cf = arcpy.CalculateField_management("911Count.shp", "MyID", "!FID!", "PYTHON")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix... 
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("911Count.shp", "MYID",
                        "euclidean6Neighs.swm",
                        "K_NEAREST_NEIGHBORS",
                        "#", "#", "#", 6,
                        "NO_STANDARDIZATION") 
    # Cluster Analysis of 911 Calls
    # Process: High/Low Clustering (Getis-Ord General G)
    hs = arcpy.HighLowClustering_stats("911Count.shp", "ICOUNT", 
                        "false", 
                        "GET_SPATIAL_WEIGHTS_FROM_FILE",
                        "EUCLIDEAN_DISTANCE", "NONE",
                        "#", "euclidean6Neighs.swm")
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Параметры среды

Выходная система координат

До начала анализа геометрия пространственных объектов проецируется в Выходную систему координат. Во всех математических вычислениях учитывается пространственная привязка Выходной системы координат. Если выходная система координат выражена в градусах, минутах и секундах, то геодезические расстояния рассчитываются с помощью хордовых расстояний.

Связанные разделы