Многовариантный пространственный кластерный анализ (Функция Ripley's K) (Пространственная статистика)

Краткая информация

Определяет, проявляют ли пространственные объекты, или ассоциированные с ними значения, статистически значимую кластеризацию или дисперсию по диапазону расстояний.

Более подробно о том, как работает пространственный кластерный анализ на основе множественных расстояний

Иллюстрация

График K-функции
Измерение пространственной кластеризации/дисперсии для диапазона расстояний.

Использование

  • Для точного измерения расстояний этому инструменту требуются проецированные данные.

  • Результат работы инструмента выводится в виде таблицы со следующими полями: ExpectedK и ObservedK, соответственно содержащими ожидаемые и наблюдаемые значения К-функции. Поскольку применяется преобразование L(d), значения ExpectedK всегда будут совпадать со значением Расстояние. Поле DiffK содержит разность между наблюдаемыми и ожидаемыми значениями К-функции. Если включена функция расчета доверительного интервала, два дополнительных поля LwConfEnv и HiConfEnv также будут включены в Выходную таблицу. Эти поля содержат информацию о доверительных интервалах для каждой итерации, заданных параметром Число диапазонов расстояний.

  • Когда наблюдаемые значения К больше, чем ожидаемые значения К для определенного расстояния, в таком случае распределение более кластеризовано нежели случайно для обозначенного расстояния (масштаб анализа). Когда наблюдаемые значения К меньше, чем ожидаемые значения К, распределение более дисперсно нежели случайно для обозначенного расстояния (масштаб анализа). Когда наблюдаемые значения К больше, чем значение HiConfEnv, пространственная кластеризация для такого расстояния является статистически значимой. Когда наблюдаемые значения К меньше, чем LwConfEnv, пространственная дисперсия для такого расстояния является статистически значимой. Дополнительную информацию см. в разделе Как работает пространственный кластерный анализ на основе множественных расстояний (Функция Ripley K) .

  • Для линейных или полигональных объектов, при расчете расстояний используются центроиды. Для мультиточек, полилиний или полигонов, состоящих их нескольких частей, центроид вычисляется с использованием средневзвешенного центра всех частей объекта. При определении весов точечные объекты имеют равный вес (1). Для линейных объектов это длина сегмента. Для полигональных – площадь.

  • Поле веса используется наиболее подходящим образом, когда отражает количество случаев или вычисления.

  • Когда Поле веса не определено, наибольшее значение DiffK указывает расстояние, на котором пространственные процессы, способствующие кластеризации, наиболее выражены.

  • Ниже объясняется, как производится расчет доверительных границ:

    • Без Поля веса

      Когда Поле веса не определено, доверительная граница конструируется посредством случайного распределения точек в пределах изучаемой области и для данного распределения вычисляется значение L(d). Каждое случайное перераспределение точек носит название "перестановка". Если к примеру, выбрано 99 перестановок, инструмент случайным выбором перераспределит набор из исходных точек 99 раз для каждой итерации. После распределения набора точек 99 раз инструмент выберет для каждого расстояния два Наблюдаемые значения К, максимально отклоняющиеся от Ожидаемого К (сверху и снизу); эти значения сформируют доверительный интервал.

    • С Полем веса

      Когда Поле веса определено, только значения весов случайным образом перераспределяются, чтобы рассчитать доверительные границы, в то время как местоположение точек остается фиксированным. По существу, когда Поле веса определено, местоположение остается фиксированным и инструмент оценивает кластеризацию значений объектов в пространстве. С другой стороны, когда Поле веса определено, инструмент анализирует кластеризацию/дисперсию положения объектов.

  • Поскольку доверительные границы определяются исходя из случайных перестановок, значения, определяющие доверительные границы, будут изменяться с каждым запуском инструмента, даже если входные параметры идентичны. Однако если вы установите начальное значение для генератора случайных чисел, повторяющийся анализ даст стабильные результаты.

  • Несколько перестановок, выбранных для параметра Вычисление доверительные границы, могут быть свободно соотнесены с доверительными уровнями: 9 для 90%, 99 для 99%, и 999 для 99,9%.

  • Когда изучаемая область не указана, инструмент использует минимальный прямоугольник, включающий в себя все точки, в качестве полигональной области изучения. В отличие от экстента минимальный описывающий прямоугольник может не совпадать с осями Х и У.

  • К-функция очень чувствительна к размеру области изучения. Идентично расположенные точки могут быть кластеризованы или распределены дисперсно в зависимости от размера окружающей их области исследования. Поэтому необходимо особенно тщательно подходить к выбору границ области изучения. Приведенный ниже рисунок демонстрирует классический пример, как идентично расположенные объекты могут кластеризоваться или располагаться рассеянно в зависимости от указанной области изучения.

    Распределения могут кластеризоваться или располагаться рассеянно в зависимости от размеров области изучения.

  • Класс объектов для области изучения необходим, если в качестве параметра для Метода определения области изучения выбран Заданный пользователем класс объектов изучаемой территории.

  • Если Класс объектов изучаемой территории задан, он должен строго содержать только 1 объект (полигон области изучения).

  • Если Начальное расстояние или Приращение расстояния не определены, тогда значения по умолчанию рассчитываются с учетом экстента Входного класса объектов.

  • K-функция не учитывает полностью отклонения для объектов, расположенных около границы области исследования. Метод коррекции границ предусматривает подходы для реагирования на эти отклонения.

    • Нет

      Никакой специальной коррекции границ не применено. Однако точки, входящие во Входной класс объектов и располагающиеся за пределами области изучения, определенной пользователем, используются в соседних вычислениях. Этот метод подходит, если вы собрали данные с очень большой области изучения, но нуждаетесь в анализе меньших областей, попадающих внутрь границ, отделяющих собранные вами данные.

    • Симуляция внешних приграничных значений

      Этот метод создает точки за пределами границ области изучения, которые отражают точки, найденные внутри области исследования, чтобы исправить недооценку рядом с границами. Точки, располагающиеся в пределах расстояния, равного максимальному диапазону расстояний от границы области изучения, отражаются. Отраженные точки используются с тем расчетом, чтобы приграничные точки могли иметь более точные оценки. Представленная снизу диаграмма иллюстрирует, какие точки будут использованы в расчетах и какие будут только использоваться для корректировки приграничных.

      Метод исправления приграничных значений путем введения дополнительных внешних точек
    • Сократить область анализа

      Данная методика корректировки сужает размер области анализа на расстояние, равное наибольшему диапазону расстояний, используемому в анализе. После сужения области изучения, точки, находящиеся за пределами новой области исследования, будут рассматриваться только тогда, когда соседние вычисления оцениваются для точек, все еще располагающихся внутри области изучения. Ни в каком другом виде они не будут использоваться при вычислении К-функции. Представленная снизу диаграмма иллюстрирует, какие точки будут использованы в расчетах и какие будут только использоваться для корректировки приграничных.

      Метод исправления приграничных значений путем сужения области изучения
    • Формула корректировки приграничных точек Рипли

      Этот метод анализирует расстояние от каждой точки до границ области изучения и до каждого ее соседа. Всем соседям, которые удалены от точки интереса на расстояние большее, нежели расстояние от точки до границы области изучения, приписываются дополнительные веса. Этот метод корректировки подходит только для областей изучения, имеющих квадратную или прямоугольную форму, или когда вы выбираете значение Минимальный ограждающий прямоугольник для параметра Метод определения области изучения.

  • Если метод коррекции границ не применяется, смещение увеличивается при увеличении расстояния.

  • С математической точки зрения Многовариантный пространственный кластерный анализ (Функция Ripley's K) использует обычную трансформацию К-функции Рипли, где ожидаемые результаты по случайному набору точек соответствуют входному расстоянию. Преобразование L(d) показано ниже.

    Уравнение преобразования k-функции

    где А – область, N – количество точек, d – расстояние и k(i, j) – вес, который (если нет приграничных исправлений) равен 1, когда расстояние между i и j меньше или рано d и равен нулю, когда расстояние между i и j больше d. Когда приграничная корректировка применяется, веса k(i,j) слегка изменяются.

  • Слои карты можно использовать для определения Входного класса объектов. Если в слое есть выборка, только выбранные объекты будут включены в анализ.

  • Внимание:

    При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.

Параметры

ПодписьОписаниеТип данных
Входной класс пространственных объектов

Класс объектов, по которому будет выполняться анализ.

Feature Layer
Выходная таблица

Таблица, в которую будут записаны результаты анализа

Table
Число интервалов расстояний

Количество раз, чтобы увеличить размер соседства и проанализировать набор данных для выявления кластеризации. Начальная точка и размер приращения указываются в качестве параметров Начальное расстояние и Приращение расстояние.

Long
Вычисление доверительной границы
(Дополнительный)

Доверительные границы рассчитываются путем случайного перераспределения точечных объектов (или их значений) по области изучения. Количество точек/значений, перераспределенных случайным образом, соответствует количеству точек, содержащихся в классе объектов. Каждая очередь случайных перераспределений называется "перестановка", и доверительные границы создаются на основе этих перестановок. Этот параметр позволяет вам выбрать, сколько перестановок следует использовать для расчета доверительных границ.

  • 0 перестановок – нет доверительных границДоверительные границы не созданы.
  • 9 перестановок9 наборов точек/значений размещаются случайным образом.
  • 99 перестановок99 наборов точек/значений размещаются случайным образом.
  • 999 перестановок999 наборов точек/значений размещаются случайным образом.
String
Отобразить результат графически
(Дополнительный)

Этот параметр не оказывает никакого влияния; он остался в программе для обеспечения обратной совместимости.

Boolean
Поле веса
(Дополнительный)

Числовое поле веса, отражающее количество объектов/событий в каждом местоположении.

Field
Начальное расстояние
(Дополнительный)

Расстояние, на котором необходимо начать кластерный анализ и расстояние, от которого необходимо начать приращение. Введенное значение параметра должно быть в таких же единицах, что и Выходная система координат.

Double
Приращение расстояния
(Дополнительный)

Расстояние, на которое необходимо увеличивать при каждой последующей итерации. Расстояние, используемое в этом анализе, начинается от значения параметра Начальное расстояние и увеличивается на величину, указанную в параметре Приращение расстояния. Значение этого параметра должно измеряться в единицах параметра среды Выходная система координат.

Double
Метод коррекции границ
(Дополнительный)

Данный метод используется для корректировки недооценок количества соседей для объектов, расположенных рядом с границами области изучения.

  • НетНе применена корректировка приграничных точек. Однако если Входной класс объектов уже содержит точки, располагающиеся за пределами области изучения, они будут использоваться в соседних вычислениях для объектов рядом с границами.
  • Симуляция внешних приграничных значенийЭтот метод расставляет точки за пределами области изучения так, что количество соседей рядом с границами достаточное для проведения корректных расчетов. Расставленные точки являются отображением точек, расположенных рядом с границами внутри области изучения.
  • Сократить область анализаЭтот метод сужает область изучения таким образом, что некоторые точки могут оказаться за пределами области исследования. Точки, найденные за пределами области исследования, используются для соседних вычислений, но не используются при проведении кластерного анализа.
  • Формула корректировки приграничных точек РиплиДля всех точек (j), расположенных по соседству от точки i, данный метод проверяет, располагается ли точка i ближе к границе области интереса или к точке j. Если j ближе, дополнительные веса присваиваются точке j. Этот метод корректировки подходит только для областей изучения, имеющих форму квадрата или прямоугольника.
String
Метод определения области изучения
(Дополнительный)

Указывает регион, который необходимо использовать для области изучения. К-функция чувствительна к изменениям в размере области изучения, в связи с чем необходим тщательный выбор значения.

  • Минимальный ограждающий прямоугольникУказывает, что будет использован наименьший из возможных прямоугольников, содержащих внутри все точки.
  • Заданный пользователем класс объектов изучаемой территорииУказывает, что класс объектов, определяющий область изучения, будет представлен в качестве параметра Класс объектов изучаемой территории.
String
Класс объектов изучаемой территории
(Дополнительный)

Класс объектов, который очерчивает область, по которой следует анализировать входной класс объектов. Должен указываться только в том случае, когда для параметра Метод определения области изучения выбрано значение Заданный пользователем класс объектов изучаемой территории.

Feature Layer

Производные выходные данные

ПодписьОписаниеТип данных
Итоговая диаграмма

Линейная диаграмма результатов работы инструмента.

Диаграмма

arcpy.stats.MultiDistanceSpatialClustering(Input_Feature_Class, Output_Table, Number_of_Distance_Bands, {Compute_Confidence_Envelope}, {Display_Results_Graphically}, {Weight_Field}, {Beginning_Distance}, {Distance_Increment}, {Boundary_Correction_Method}, {Study_Area_Method}, {Study_Area_Feature_Class})
ИмяОписаниеТип данных
Input_Feature_Class

Класс объектов, по которому будет выполняться анализ.

Feature Layer
Output_Table

Таблица, в которую будут записаны результаты анализа

Table
Number_of_Distance_Bands

Количество раз, чтобы увеличить размер соседства и проанализировать набор данных для выявления кластеризации. Начальная точка и размер приращения указываются в параметрах Beginning_Distance и Distance_Increment соответственно.

Long
Compute_Confidence_Envelope
(Дополнительный)

Доверительные границы рассчитываются путем случайного перераспределения точечных объектов (или их значений) по области изучения. Количество точек/значений, перераспределенных случайным образом, соответствует количеству точек, содержащихся в классе объектов. Каждая очередь случайных перераспределений называется "перестановка", и доверительные границы создаются на основе этих перестановок. Этот параметр позволяет вам выбрать, сколько перестановок следует использовать для расчета доверительных границ.

  • 0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPEДоверительные границы не созданы.
  • 9_PERMUTATIONS9 наборов точек/значений размещаются случайным образом.
  • 99_PERMUTATIONS99 наборов точек/значений размещаются случайным образом.
  • 999_PERMUTATIONS999 наборов точек/значений размещаются случайным образом.
String
Display_Results_Graphically
(Дополнительный)

Этот параметр не оказывает никакого влияния; он остался в программе для обеспечения обратной совместимости.

  • NO_DISPLAYРезультаты не будут представлены в графической форме (по умолчанию).
  • DISPLAY_ITГрафические результаты будут представлены в виде графического слоя.
Boolean
Weight_Field
(Дополнительный)

Числовое поле веса, отражающее количество объектов/событий в каждом местоположении.

Field
Beginning_Distance
(Дополнительный)

Расстояние, на котором необходимо начать кластерный анализ и расстояние, от которого необходимо начать приращение. Введенное значение параметра должно быть в таких же единицах, что и Выходная система координат.

Double
Distance_Increment
(Дополнительный)

Расстояние, на которое необходимо увеличивать при каждой последующей итерации. Расстояние, используемое в этом анализе, начинается от Beginning_Distance и увеличивается на величину, указанную в Distance_Increment. Значение этого параметра должно измеряться в единицах параметра среды Выходная система координат.

Double
Boundary_Correction_Method
(Дополнительный)

Данный метод используется для корректировки недооценок количества соседей для объектов, расположенных рядом с границами области изучения.

  • NONEНе применена корректировка приграничных точек. Однако если Входной класс объектов уже содержит точки, располагающиеся за пределами области изучения, они будут использоваться в соседних вычислениях для объектов рядом с границами.
  • SIMULATE_OUTER_BOUNDARY_VALUESЭтот метод расставляет точки за пределами области изучения так, что количество соседей рядом с границами достаточное для проведения корректных расчетов. Расставленные точки являются отображением точек, расположенных рядом с границами внутри области изучения.
  • REDUCE_ANALYSIS_AREAЭтот метод сужает область изучения таким образом, что некоторые точки могут оказаться за пределами области исследования. Точки, найденные за пределами области исследования, используются для соседних вычислений, но не используются при проведении кластерного анализа.
  • RIPLEY_EDGE_CORRECTION_FORMULAДля всех точек (j), расположенных по соседству от точки i, данный метод проверяет, располагается ли точка i ближе к границе области интереса или к точке j. Если j ближе, дополнительные веса присваиваются точке j. Этот метод корректировки подходит только для областей изучения, имеющих форму квадрата или прямоугольника.
String
Study_Area_Method
(Дополнительный)

Указывает регион, который необходимо использовать для области изучения. К-функция чувствительна к изменениям в размере области изучения, в связи с чем необходим тщательный выбор значения.

  • MINIMUM_ENCLOSING_RECTANGLEУказывает, что будет использован наименьший из возможных прямоугольников, содержащих внутри все точки.
  • USER_PROVIDED_STUDY_AREA_FEATURE_CLASSУказывает, что класс объектов, определяющий область изучения, будет представлен в качестве параметра Класс объектов изучаемой территории.
String
Study_Area_Feature_Class
(Дополнительный)

Класс объектов, который очерчивает область, по которой следует анализировать входной класс объектов. Указан, только если Study_Area_Method = "USER_PROVIDED_STUDY_AREA_FEATURE_CLASS" .

Feature Layer

Производные выходные данные

ИмяОписаниеТип данных
Result_Image

Линейная диаграмма результатов работы инструмента.

Диаграмма

Пример кода

MultiDistanceSpatialClustering, пример 1 (окно Python)

Следующий скрипт окна Python демонстрирует, как использовать инструмент MultiDistanceSpatialClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,
                                           "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
                                           "NO_DISPLAY", "#", 1000, 200, "REDUCE_ANALYSIS_AREA",
                                           "MINIMUM_ENCLOSING_RECTANGLE", "#")
MultiDistanceSpatialClustering, пример 2 (автономный скрипт)

Следующий автономный Python скрипт демонстрирует, как использовать инструмент MultiDistanceSpatialClustering.

# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon 
# Import system modules
import arcpy
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Set Distance Band Parameters: Analyze clustering of 911 calls from
    # 1000 to 3000 feet by 200 foot increments
    numDistances = 11
    startDistance = 1000.0
    increment = 200.0
    # Process: Run K-Function...
    kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
                        "kFunResult.dbf", numDistances,
                        "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE", 
                        "NO_DISPLAY", "#", startDistance, increment,
                        "REDUCE_ANALYSIS_AREA",
                        "MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Параметры среды

Особые случаи

Выходная система координат

Геометрия объектов проецируется в Выходную систему координат до выполнения анализа, поэтому значения, введенные для параметров Начальное расстояние и Приращение расстояния должны совпадать с указанными в Выходной системе координат. Во всех математических вычислениях учитывается пространственная привязка Выходной системы координат.

Информация о лицензиях

  • Basic: Да
  • Standard: Да
  • Advanced: Да

Связанные разделы