Географически взвешенная регрессия (ГВР) (GeoAnalytics)

Краткая информация

Выполняет Географически взвешенную регрессию (ГВР), локальную форму линейной регрессии, используемую для моделирования пространственных отношений.

Примечание:

Этот инструмент является набором возможностей, добавляемых к инструменту Географически взвешенная регрессия (ГВР), появившийся в ArcGIS Pro 2.3.

Для понимания алгоритмов работы инструмента см. раздел Более подробно о работе инструмента Географически взвешенная регрессия. В этом разделе описывается инструменты в наборе инструментов Пространственная статистика, а также функции, не включенные на данный момент в Инструменты GeoAnalytics Server.

Использование

  • Этот инструмент геообработки доступен с версией ArcGIS Enterprise 10.8.1 или более новой.

  • Инструмент выполняет Географически взвешенную регрессию (ГВР), локальную форму линейной регрессии, используемую для моделирования пространственных отношений. Метод ГВР создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. Географически взвешенная регрессия (ГВР) создает отдельные уравнения путем включения зависимых и независимых переменных объектов, попадающих в окрестности каждого целевого объекта. Форма и экстент каждой окрестности анализируется на основании входных данных для параметров Тип окрестности и Метод выбора окрестности.

  • Географически взвешенная регрессия применяется к наборам данных с несколькими сотнями объектов для лучших результатов. Инструмент не подходит для небольших наборов данных. Инструмент не работает с мультиточечными данными.

  • Этот инструмент не поддерживает входные значения, содержащие только дату, и поля, содержащие только время.

  • В параметре Входные объекты укажите поле, представляющее явление, которое вы моделируете (Зависимую переменную), а также укажите одно или несколько полей, представляющих значения параметра Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты, у которых отсутствуют значения в зависимых или описательных переменных, будут исключены из анализа. Для изменения значений можно использовать инструмент Вычислить поле. Если данные доступны для использования в ArcGIS Pro, используйте инструмент Заполнить отсутствующие значения, чтобы добавить недостающие значения в набор данных перед запуском инструмента Географически взвешенная регрессия (ГВР).

  • Инструмент Географически взвешенная регрессия (ГВР) также создает выходные объекты и добавляет поля со значениями локальных проверок. Значения параметра Выходной класс объектов и связанные с ним диаграммы автоматически добавляется в таблицу содержания со схемой отображения от горячего к холодному, применяемой в моделировании невязок. Полное пояснение по каждому результату см. в разделе Как работает инструмент Географически взвешенная регрессия.

    Примечание:

    Инструмент Географически взвешенная регрессия (ГВР) производит множество различных результатов. Итоговая информация по модели ГВР доступна в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Вы можете получить доступ к сообщению, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы также можете просмотреть сообщения, касающиеся ранее запущенного инструмента Географически взвешенная регрессия (ГВР) в истории геообработки.

  • Необходимо использовать спроецированные данные.

  • К общепринятым рекомендациям относится глобальное изучение данных с использованием инструмента Обобщенная линейная регрессия перед локальным исследованием с помощью инструмента Географически взвешенная регрессия (ГВР).

  • Зависимая переменная и Независимые переменные должны быть заданы числовыми полями, содержащими диапазоны значений. Эти значения должны различаться как на глобальном, так и на локальном уровне. Поэтому не стоит использовать "фиктивные" независимые переменные, чтобы представить различные пространственные режимы в модели ГВР (например, переписным районам вне городского ядра назначают значения 1, в то время как всем другим назначают значение 0). Поскольку Географически взвешенная регрессия допускает изменение коэффициентов независимых переменных, эти независимые переменные пространственного режима являются ненужными, а их включение создаст проблемы с локальной мультиколлинеарностью.

  • В глобальных регрессионных моделях, таких как (Обобщенная линейная регрессия), результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю). Инструмент Географически взвешенная регрессия строит уравнение локальной регрессии для каждого объекта в наборе данных. Когда значения для конкретной независимой переменной кластеризованы в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Поле числа обусловленности (COND_ADJ) в выходном классе объектов указывает на нестабильность результатов вследствие локальной мультиколлинеарности. Как правило, не стоит доверять результатам для объектов со скорректированным числом обусловленности более 30, равным 0 или, для шейп-файлов, равным 1.7976931348623158e+308.

  • При включении номинальных или категорийных данных в модели ГВР необходимо быть очень внимательным. Если наблюдается кластеризация в пространстве по категориям, присутствует высокий риск столкновения с локальной мультиколлинеарностью. Скорректированное число обусловленности, включенное в результаты Географически взвешенной регрессии, указывает, когда локальная коллинеарность – проблема (скорректированное число обусловленности меньше чем ноль, больше чем 30, или Null). Результаты в присутствии локальной мультиколлинеарности непостоянны.

  • Регрессионная модель – определена некорректно, если отсутствует ключевая независимая переменная. Статистически существенная пространственная автокорреляция невязок регрессии и/или неожиданное пространственное изменение среди коэффициентов одной или более независимых переменных предполагают, что ваша модель определена некорректно. Вы должны приложить все усилия (используя анализ невязок ОЛР и коэффициентов вариационного анализа ГВР), чтобы обнаружить эти ключевые недостающие переменные и включить их в модель.

  • Постоянный вопрос, имеет ли смысл для независимой переменной быть нестационарной. Например, предположите, что вы моделируете плотность определенного вида растений, как функцию нескольких переменных, включая ASPECT. Если вы находите, что коэффициент для переменной ASPECT изменяется в области исследования, вы, вероятно, видите доказательства недостатка ключевой независимой переменной (возможно, распространенность конкурирующей растительности, например). Вы должны приложить все усилия, чтобы включать все ключевые независимые переменные в вашу регрессионную модель.

  • Когда результатом вычисления будет бесконечность или неопределенным, результат для файлов, которые не являются шейп-файлами, будет Пустым.

  • Серьезные проблемы в схеме модели или ошибки выявления локальных уравнений, не содержащих в своих описаниях достаточное количество соседей, зачастую указывают на проблемы с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить, где встретилась проблема, запустите глобальную модель, используя Обобщенную линейную регрессию, и проверьте значение фактора, увеличивающего дисперсию для каждой переменной величины. Если некоторые из значений Фактора, увеличивающего дисперсию, – большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать методу ГВР (географически взвешенная регрессия). Однако вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения тех переменных из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете значения для дома и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей Географически взвешенной регрессии, избегайте использования фиктивных значений, пространственной кластеризации категорий или номинальных переменных, или переменных с очень малым числом возможных значений.

  • Географически взвешенная регрессия это линейная модель, к которой предъявляются те же требования, что и к Обобщенной линейной регрессии. Просмотрите подобный разбор показателей проверки в разделе Как работает Географически взвешенная регрессия, чтобы убедиться, что ваша модель ГВР определена корректно. Не все описанные показатели доступны в наборе инструментов GeoAnalytics Desktop. Раздел Плохо работает модель регрессии в статье Основы регрессионного анализа также содержит информацию, которая поможет вам повысить точность модели.

  • Можно повысить скорость работы инструмента Географически взвешенная регрессия одним из следующих методов:

    • Установите параметр среды Экстент так, чтобы вы анализировали только интересующие вас данные.
    • Уменьшите количество окрестностей в вычислениях.
    • Используйте опцию Число соседей вместо Диапазона расстояний в параметре Тип окрестности (neighborhood_type = "NUMBER OF NEIGHBORS" в Python).
    • По возможности, используйте меньше описательных переменных.
    • Используйте локальные данные там, где запускается анализ.

  • Этот инструмент геообработки работает на ArcGIS GeoAnalytics Server. Анализ выполняется на вашем GeoAnalytics Server, а результаты сохраняются в ресурсы на ArcGIS Enterprise.

  • При запуске инструментов GeoAnalytics Server анализ выполняется на GeoAnalytics Server. Для оптимальной производительности сделайте данные доступными для GeoAnalytics Server через векторные слои, размещенные на вашем портале ArcGIS Enterprise или через файловое хранилище больших данных. Данные, которые не являются локальными для GeoAnalytics Server, будут перемещены на GeoAnalytics Server до начала анализа. Это означает, что для запуска инструмента потребуется больше времени, а в некоторых случаях перемещение данных с ArcGIS Pro на GeoAnalytics Server может завершиться ошибкой. Порог сбоя зависит от скорости сети, а также от размера и сложности данных. Рекомендуется всегда публиковать данные или создавать файловое хранилище больших данных.

    Более подробно о публикации локаторов на портале

    Более подробно о создании файловых хранилищ больших данных в Server Manager

  • Аналогичный анализ можно выполнить при помощи инструмента Географически взвешенная регрессия из набора инструментов Пространственная статистика. Используйте инструмент из набора Пространственная статистика, когда необходимо выполнить следующие задачи:

    • Используйте локальные слои на компьютере с ArcGIS Pro (например, классы объектов в файловой базе геоданных).
    • Записывайте прогнозируемые значения в другой слой или создайте слой растровых коэффициентов.
    • Смоделируйте бинарную (логическую) или количественную (Пуассона) переменную.
    • Задайте поиск окрестностей, используя Золотой поиск или Интервал вручную.

Параметры

ПодписьОписаниеТип данных
Входные объекты

Класс точечных объектов, содержащий зависимые и независимые переменные.

Feature Set
Зависимая переменная

Числовое поле, содержащее значения, которые нужно смоделировать.

Field
Тип модели

Указывает тип моделируемых данных.

  • Непрерывные (Гауссовы)Значение Зависимой переменной – непрерывное. Будет использована модель Гаусса и инструмент вычислит регрессию по методу наименьших квадратов.
String
Независимые переменные

Перечень полей, представляющих независимые переменные в вашей регрессионной модели.

Field
Выходные объекты

Имя выходного сервиса пространственных объектов.

String
Тип окрестности

Указывает, создается ли окрестность, используемая в модели, фиксированной, или допускаются изменения в пространстве как в зависимости от плотности объектов.

  • Число соседейРазмер окрестности является функцией от указанного числа соседей, включенного в расчет для каждого объекта. Если объекты расположены плотно, пространственный экстент окрестности небольшой; если же объекты распределены в пространстве, пространственный экстент окрестности увеличивается.
  • Диапазон расстоянийРазмер окрестности постоянен (фиксирован) для каждого объекта.
String
Метод выбора окрестности

Задает, как будет определяться размер окрестности.

  • Определен пользователемРазмер окрестности будет определен параметрами Число соседей или Диапазон расстояний.
String
Число соседей
(Дополнительный)

Число ближайших соседних объектов (до 1000), учитываемых для каждого объекта. Это должно быть целое число в диапазоне от 2 до 1000.

Long
Диапазон расстояний
(Дополнительный)

Пространственный экстент окрестности.

Linear Unit
Локальная схема весов
(Дополнительный)

Определяет тип кернфункции, которая будет использоваться при присвоении пространственных весов в модели. Кернфункция определяет, каким образом каждый объект связан с остальными объектами в пределах окрестности.

  • БиквадратнаяВес, равный 0, присваивается объектам, находящимся за пределами указанной окрестности. Это значение по умолчанию
  • ГауссоваВсем объектам присваивается какой-либо вес, причем значение веса снижается экспоненциально по мере удаления от целевого объекта.
String
Хранилище данных
(Дополнительный)

Задает ArcGIS Data Store, где будут сохраняться выходные данные. По умолчанию это Хранилище больших пространственно-временных данных. Все результаты, находящиеся в хранилище пространственно-временных больших данных, будут храниться в системе WGS84. Результаты в реляционном хранилище данных сохраняют свои систему координат.

  • Хранилище пространственно-временных больших данныхРезультаты будут храниться в хранилище больших пространственно-временных данных. Это значение по умолчанию
  • Реляционное хранилище данныхРезультаты будут храниться в хранилище реляционных данных.
String

Производные выходные данные

ПодписьОписаниеТип данных
Выходные данные

Выходные объекты.

Record Set

arcpy.geoanalytics.GWR(in_features, dependent_variable, model_type, explanatory_variables, output_features, neighborhood_type, neighborhood_selection_method, {number_of_neighbors}, {distance_band}, {local_weighting_scheme}, {data_store})
ИмяОписаниеТип данных
in_features

Класс точечных объектов, содержащий зависимые и независимые переменные.

Feature Set
dependent_variable

Числовое поле, содержащее значения, которые нужно смоделировать.

Field
model_type

Указывает тип моделируемых данных.

  • CONTINUOUSЗначение dependent_variable – непрерывное. Будет использована модель Гаусса и инструмент вычислит регрессию по методу наименьших квадратов.
String
explanatory_variables
[explanatory_variables,...]

Перечень полей, представляющих независимые переменные в вашей регрессионной модели.

Field
output_features

Имя выходного сервиса пространственных объектов.

String
neighborhood_type

Указывает, создается ли окрестность, используемая в модели, фиксированной, или допускаются изменения в пространстве как в зависимости от плотности объектов.

  • NUMBER_OF_NEIGHBORSРазмер окрестности является функцией от указанного числа соседей, включенного в расчет для каждого объекта. Если объекты расположены плотно, пространственный экстент окрестности небольшой; если же объекты распределены в пространстве, пространственный экстент окрестности увеличивается.
  • DISTANCE_BANDРазмер окрестности постоянен (фиксирован) для каждого объекта.
String
neighborhood_selection_method

Задает, как будет определяться размер окрестности.

  • USER_DEFINEDРазмер окрестности будет определен параметрами number_of_neighbors или distance_band.
String
number_of_neighbors
(Дополнительный)

Число ближайших соседних объектов (до 1000), учитываемых для каждого объекта. Это должно быть целое число в диапазоне от 2 до 1000.

Long
distance_band
(Дополнительный)

Пространственный экстент окрестности.

Linear Unit
local_weighting_scheme
(Дополнительный)

Определяет тип кернфункции, которая будет использоваться при присвоении пространственных весов в модели. Кернфункция определяет, каким образом каждый объект связан с остальными объектами в пределах окрестности.

  • BISQUAREВес, равный 0, присваивается объектам, находящимся за пределами указанной окрестности. Это значение по умолчанию
  • GAUSSIANВсем объектам присваивается какой-либо вес, причем значение веса снижается экспоненциально по мере удаления от целевого объекта.
String
data_store
(Дополнительный)

Задает ArcGIS Data Store, где будут сохраняться выходные данные. По умолчанию – SPATIOTEMPORAL_DATA_STORE. Все результаты, находящиеся в хранилище пространственно-временных больших данных, будут храниться в системе WGS84. Результаты в реляционном хранилище данных сохраняют свои систему координат.

  • SPATIOTEMPORAL_DATA_STOREРезультаты будут храниться в хранилище больших пространственно-временных данных. Это значение по умолчанию
  • RELATIONAL_DATA_STOREРезультаты будут храниться в хранилище реляционных данных.
String

Производные выходные данные

ИмяОписаниеТип данных
output

Выходные объекты.

Record Set

Пример кода

GeographicallyWeightedRegression, пример (автономный скрипт)

В следующем скрипте окна Python показано, как используется инструмент GWR.

В этом скрипте мы создаем модель, чтобы определить, какие параметры среды влияют на высокую частоту лесных пожаров.


# Name: GWR.py
# Description: Run GWR on forest fire occurrence report data to understand 
#              which variables explain reoccurring forest fires
#
# Requirements: ArcGIS GeoAnalytics Server

# Import system modules
import arcpy

# Set local variables
inputFeatures = "https://analysis.org.com/server/rest/services/DataStoreCatalogs/bigDataFileShares_EcoData/BigDataCatalogServer/fireLocations"
outputLayerName = "GWR_ForestFireFrequency"
dependentVariable = "Fire_Frequency"
explanatoryVariables = "GroundCover, TreeCover, SoilMoisture, slope"
distanceValue = "5 Miles"

# Execute GWR
arcpy.geoanalytics.gwr(inputFeatures, dependentVariable, 
                                                    "CONTINUOUS", explanatoryVariables, 
                                                    outputLayerName, "DISTANCE_BAND", 
                                                    "USER_DEFINED", None, distanceValue, 
                                                    "GAUSSIAN", "SPATIOTEMPORAL_DATA_STORE"))

Параметры среды

Особые случаи

Выходная система координат

Система координат, используемая при анализе. Если данный параметр не указан, анализ будет выполнен во входной системе координат. Для GeoAnalytics Tools готовые результаты будут храниться в пространственно-временном хранилище данных в WGS84.

Информация о лицензиях

  • Basic: Обязательно ArcGIS GeoAnalytics Server
  • Standard: Обязательно ArcGIS GeoAnalytics Server
  • Advanced: Обязательно ArcGIS GeoAnalytics Server

Связанные разделы