Инструмент Суммарная статистика окрестности вычисляет локальную суммарную статистику одного или нескольких числовых полей точечных или полигональных объектов с использованием окрестностей. Локальная статистика включает среднее, медиану, среднеквадратическое отклонение, межквартильный диапазон, асимметрию и квантильный дисбаланс. Окрестности могу быть определены по диапазону расстояний, количеству соседей, смежности полигонов и файлу пространственных весов. Вы можете географически взвешивать всю локальную статистику, используя ядра.
Типы окрестностей
Параметр Тип окрестности имеет шесть опций, которые можно использовать для определения объектов, используемых в качестве соседей каждого фокального объекта. Для всех типов окрестности по умолчанию фокальный объект также включен в окрестность. Вы можете исключить фокальный объект из окрестности, сняв отметку Включить фокальный объект в вычисления.
- Диапазон расстояний — все объекты в пределах заданного расстояния (максимум 1000) используются в качестве соседей. Расстояние по умолчанию – это кратчайший расстояние, которое гарантирует каждому объекту как минимум 1 дополнительно соседа.
- Число соседей — в качестве соседей используется фиксированное число ближайших объектов. В это число фокальный объект не входит, следовательно, если он будет включен в вычисления, число соседних объектов, используемое в вычислениях, увеличится на один.
- Только совпадающие ребра — любые полигоны, имеющие общую границу с фокальным объектом, используются в качестве соседей. Этот опция применима только для полигональных объектов.
- Совпадающие ребра и углы — любые полигоны, имеющие общее ребро или угол с фокальным объектом, используются в качестве соседей. Этот опция применима только для полигональных объектов.
- Триангуляция Делоне — соседи определяются на основании общих ребер или углов в их триангуляции Делоне. Использование этой опции эквивалентно использованию инструмента Создать полигоны Тиссена на точках и использования опции Совпадающие ребра и углы на полигонах Тиссена. Этот опция применима только для точечных объектов.
- Получить пространственные веса из файла — соседи и веса каждого объекта определяются файлом матрицы пространственных весов, указанным в параметре Файл матрицы весов. Можно создать файл с помощью инструментов Построить матрицу пространственных весов и Построить матрицу пространственных весов для сети.
Суммарная статистика
Существует шесть показателей суммарной статистики, которые могут быть вычислены для каждого поля анализа, заданного с помощью параметра Локальная суммарная статистика. Эти шесть статистических показателей включают измерения центральности, измерения вариабельности и распространения, а также измерения симметрии. Каждый класс предоставляет две статистики, одну традиционную и одну надежную. Надежная статистика – это статистические показатели, на которые не влияет небольшое число выбросов.
Опция Все для параметра Локальная суммарная статистика используется по умолчанию для вычисления всех шести статистических показателей для каждого поля анализа. Формулы для каждого статистического показателя можно увидеть в разделе Формулы для локальной статистики.
Измерения центральности используются для оценки середины или центра распределения значений. Эти параметры можно использовать для сглаживания значений в зашумленных данных. Показатели центральности следующие:
- Среднее (традиционная) – среднее (среднее арифметическое) значений поля анализа.
- Медиана (надежная) – 50-й процентиль для значений поля анализа. Половина значений попадает ниже, а половина – выше медианы.
Измерения вариабельности или разброса используются для оценки диапазона распределения вероятных значений. Эти параметры можно использовать для исследования того, является ли вариабельность в полях анализа одинаковой по всей карте (так называемая дисперсионная стационарность) или же некоторые области имеют более высокую локальную вариабельность, чем другие. Показатели вариабельности следующие:
- Стандартное отклонение (традиционная) – стандартное отклонение для значений поля анализа.
- Межквартильный диапазон (надежная) — диапазон средней половины значений поля анализа (75-й процентиль минус 25-й процентиль). Половина данных попадает в этот диапазон.
Измерения симметрии используются для определения того, является ли форма распределения симметричной вокруг середины. Эти параметры могут быть использованы для исследования частоты высоких и низких крайних значений. Показатели симметрии следующие:
- Асимметрия (традиционная) – асимметрия для значений поля анализа.
- Квантильный дисбаланс (надежная) — значение в диапазоне от -1 до 1 указывает на положение медианы относительно 25-го и 75-го процентилей. Значения, близкие к -1, указывают на то, что медиана близка к 25-му процентилю, а значения, близкие к 1, указывают на то, что медиана близка к 75-му процентилю. Значения, близкие к 0, указывают на симметрию, когда медиана находится на половине расстояния между 25-м и 75-м процентилями.
Пустые значения в полях анализа
Если какие-либо поля анализа содержат пустые значения, они по умолчанию будут игнорированы при вычислениях. Вы можете включить пустые значения, сняв отметку с параметра Игнорировать нулевые значения в вычислениях.
Если пустые значения игнорируются в вычислениях, число соседних объектов будет уменьшено. Например, если два из шести соседних объектов с пустыми значениями, среднее вычисляется суммированием значений только четырех объектов, и разделением, соответственно на четыре.
Если пустые значения включены, вся статистика будет равна null, если какое-либо из значений, используемых в вычислении, равно null. Например, если объект содержит значение null в поле анализа, все остальные объекты, для которых этот объект является соседним, также получат null для всей суммарной статистики в поле анализа.
Выходные данные инструмента
Выходные объекты задаются символами на карте с использованием статистики, указанной в параметре Локальная суммарная статистика, рассчитанной для первого предоставленного поля анализа (или расстояния до соседей, если поля анализа не предоставлены). Если выбрано Все для локальной суммарной статистики, отображаются результаты статистики Среднее. Суммарная статистика для всех остальных полей анализа сохраняется как поля в выходных объектах вместе с копиями всех полей анализа. Существуют также поля, показывающие количество соседей, используемых для каждого поля анализа.
Географически взвешенная суммарная статистика
Когда для параметра Тип окрестности указано Диапазон расстояний или Число соседей, все статистические данные могут быть географически взвешены с помощью параметра Локальная схема весов. Если указано Получить пространственные веса из файла для параметра Тип окрестности, в качестве схемы взвешивания используются веса, указанные в файле. Если вы применяете схему взвешивания, вся суммарная статистика взвешивается таким образом, что соседи, которые находятся ближе к фокальному объекту, получают более высокие веса в вычислениях с использованием функции, называемой ядром, которая уменьшается с расстоянием от фокального объекта. В параметре Локальная схема весов предусмотрены две функции ядра.
- Биквадратная
- Гауссова
Функции ядра зависят от ширины полосы, которая влияет на то, как быстро веса уменьшаются с расстоянием. Ширина полосы для каждого ядра задается в параметре Ширина ядра. Если значение не указано, то значение по умолчанию оценивается во время выполнения и отображается в виде сообщения геообработки. Для получения информации о том, как рассчитывается эта ширина по умолчанию, см. Как работает инструмент Плотность ядер.
Примечание:
Для окрестности диапазона расстояний ширина ядра по умолчанию равна тому же значению, что и параметр Диапазон расстояний.
Формулы для локальной статистики
Этот раздел содержит формулы для взвешенных и невзвешенных версий всей суммарной статистики по одному фокальному объекту. Эти формулы применяются к каждому входному объекту для всех полей анализа.
Во всех формулах i = 1, ..., n являются соседями фокального объекта (возможно, включая сам фокальный объект), сортированными по значениям (xi) в порядке возрастания. Все веса (wi) нормируются для суммирования к единице перед применением этих формул. Невзвешенная формула каждой статистики выводится путем установки wi = 1/n для всех соседей i.
Традиционная статистика
В следующей таблице приведены взвешенные и невзвешенные версии каждого показателя традиционной суммарной статистики.
Статистика | Взвешенная формула | Невзвешенная формула |
---|---|---|
Среднее | ||
Среднеквадратическое отклонение | ||
Скошенность |
Надежная статистика
Надежная статистика зависит от определения взвешенного p-квантиля, где p находится между 0 и 1. Это определение используется для расчета взвешенной медианы (p=0.5), первого квартиля (p=0.25) и третьего квартиля (p=0.75). Значение p-квантиля для данного p определяется следующим образом:
- Взвешенный p-квантиль:
- Невзвешенный p-квантиль:
Используя приведенное выше определение p-квантиля, в следующей таблице приведены взвешенные и невзвешенные версии каждого показателя надежной статистики.
Статистика | Взвешенная формула | Невзвешенная формула |
---|---|---|
Медиана | ||
Межквартильный диапазон | ||
Квантильный дисбаланс |
Дополнительные ресурсы
Дополнительные сведения о географически взвешенной сводной статистике см.:
- Brunsdon, C., A.S. Fotheringham, M. Charlton. 2002. "Geographically weighted summary statistics — a framework for localised exploratory data analysis." Computers, Environment and Urban Systems 26 (6): 501-524. ISSN 0198-9715. https://doi.org/10.1016/S0198-9715(01)00009-6.