Географически взвешенная регрессия (Пространственная статистика)

Сводка

Выполняет Географически взвешенную регрессию (ГВР), локальную форму линейной регрессии, используемую для моделирования пространственных отношений.

Примечание:

Этот инструмент добавлен в ArcGIS Pro 2.3 вместо подобного, но более не используемого инструмента Географически взвешенная регрессия (ГВР). Этот новый инструмент включает усовершенствования, разработанные в течение последних нескольких лет, и поддержку дополнительных моделей.

Более подробно о том, как работает Географически взвешенная регрессия (ГВР)

Иллюстрация

Географически взвешенная регрессия
Географически взвешенная регрессия – это локальная регрессионная модель. Коэффициенты могут варьироваться в пространстве.

Использование

  • Инструмент выполняет Географически взвешенную регрессию (ГВР), локальную форму линейной регрессии, используемую для моделирования пространственных отношений. Метод ГВР создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. Географически взвешенная регрессия (ГВР) создает отдельные уравнения путем включения зависимых и независимых переменных объектов, попадающих в окрестности каждого целевого объекта. Форма и экстент каждой окрестности анализируется на основании входных параметров Тип окрестности и Метод выбора окрестности с одним ограничением: если количество соседних объектов превысит 1000, то в каждое локальное уравнение будет включена только ближайшие 1000 объектов.

  • Инструмент Географически взвешенная регрессия должен применяться к наборам данных с несколькими сотнями объектов для лучших результатов. Это не подходящий метод для маленьких наборов данных. Инструмент не работает с мультиточечными данными.

  • В параметре Входные объекты укажите поле, представляющее явление, которое вы моделируете (Зависимую переменную), а также укажите одно или несколько полей, представляющих Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском инструмента Географически взвешенная регрессия (ГВР).

  • Примечание:

    Инструмент Географически взвешенная регрессия (ГВР) производит множество различных результатов. Итоговая информация по модели ГВР доступна в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Вы можете получить доступ к сообщению, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы также можете просмотреть сообщения, касающиеся ранее запущенного инструмента Географически взвешенная регрессия (ГВР) в истории геообработки.

    Инструмент ГВР также создает Выходные объекты и добавляет поля со значениями локальных проверок. Выходной класс объектов и связанные с ним диаграммы автоматически добавляется в таблицу содержания со схемой отображения от горячего к холодному, применяемой в моделировании невязок. Полное пояснение по каждому результату и диаграмме см. в разделе Как работает инструмент Географически взвешенная регрессия.

  • Параметр Тип модели зависит от моделируемых данных. Для получения точных результатов регрессионного анализа корректность модели очень важна.

  • Рекомендуется использовать спроецированные данные. Это особенно важно, если расстояние является компонентом анализа – как это происходит в случае ГВР, если выбран Диапазон расстояний в параметре Типа окрестности. Рекомендуется, чтобы данные находились в Системе координат проекции, а не в Географической системе координат.

  • Некоторые из вычислений, сделанных инструментом Географически взвешенная регрессия (ГВР) используют преимущества многократных центральных процессоров, чтобы увеличить работу и будут автоматически использовать до 8 потоков/процессоров для обработки.

  • К общепринятым рекомендациям относится глобальное изучение данных с использованием инструмента Обобщенная линейная регрессия перед локальным исследованием с помощью инструмента ГВР.

  • Зависимая переменная и Независимые переменные должны быть заданы числовыми полями, содержащими диапазоны значений. Эти значения должны различаться как на глобальном, так и на локальном уровне. Поэтому не стоит использовать "фиктивные" независимые переменные, чтобы представить различные пространственные режимы в модели ГВР (например, переписным районам вне городского ядра назначают значения 1, в то время как всем другим назначают значение 0). Поскольку ГВР допускает изменение коэффициентов независимых переменных, эти независимые переменные пространственного режима являются ненужными, а их включение создаст проблемы с локальной мультиколлинеарностью.

  • В глобальных регрессионных моделях, таких как (Обобщенная линейная регрессия), результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю). Инструмент ГВР строит уравнение локальной регрессии для каждого объекта в наборе данных. Когда значения для конкретной независимой переменной кластеризованы в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Поле числа обусловленности (COND) в выходном классе объектов указывает на нестабильность результатов вследствие локальной мультиколлинеарности. В общем случае, не стоит доверять результатам для объектов с числом обусловленности более 30, равным 0 или, для шейп-файлов, равным 1.7976931348623158e+308. Номер условия масштабируется с поправкой на количество независимых переменных в модели. Это позволяет проводить прямое сравнение числа условий между моделями, использующими различные числа независимых переменных.

  • При включении номинальных или категорийных данных в модели ГВР необходимо быть очень внимательным. Если наблюдается кластеризация в пространстве по категориям, присутствует высокий риск столкновения с локальной мультиколлинеарностью. Число обусловленности, включенное в результаты Географически взвешенной регрессии, указывает, когда локальная коллинеарность – проблема (число обусловленности меньше чем 0, больше чем 30, или Null). Результаты в присутствии локальной мультиколлинеарности непостоянны.

  • Чтобы лучше понять региональное изменение среди коэффициентов ваших независимых переменных, исследуйте дополнительные растровые коэффициенты поверхности, созданные инструментом ГВР. Эти растровые поверхности создаются в Рабочей области растровых коэффициентов, если вы указываете ее под Дополнительные опции. Для полигональных данных можно использовать градуированный цвет или отображение от холодного-к-горячему для каждого поля с коэффициентами в Выходные объекты, чтобы изучить изменения в вашей области исследования.

  • Вы можете использовать ГВР для прогнозирования, указав Прогнозируемые местоположения (часто это класс объектов, который совпадает с входными объектами), соответствующие независимым переменным и задав и Выходные объекты прогнозирования. Если поля Независимые переменные для сопоставления из Входных объектов соответствует Полям в прогнозируемых местоположениях., они будут заполнены автоматически. Если нет – укажите корректные поля.

  • Регрессионная модель – определена некорректно, если отсутствует ключевая независимая переменная. Статистически существенная пространственная автокорреляция невязок регрессии и/или неожиданное пространственное изменение среди коэффициентов одной или более независимых переменных предполагают, что ваша модель определена некорректно. Вы должны приложить все усилия (используя анализ невязок ОЛР и коэффициентов вариационного анализа ГВР), чтобы обнаружить эти ключевые недостающие переменные и включить их в модель.

  • Постоянный вопрос, имеет ли смысл для независимой переменной быть нестационарной. Например, предположите, что вы моделируете плотность определенного вида растений, как функцию нескольких переменных, включая ASPECT. Если вы находите, что коэффициент для переменной ASPECT изменяется в области исследования, вы, вероятно, видите доказательства недостатка ключевой независимой переменной (возможно, распространенность конкурирующей растительности, например). Вы должны приложить все усилия, чтобы включать все ключевые независимые переменные в вашу регрессионную модель.

  • Когда результатом вычисления будет бесконечность или неопределенным, результат для файлов, которые не являются шейп-файлами, будет Пустым; для шейп-файлов результат будет-DBL_MAX =-1.7976931348623158e+308.

    Внимание:

    При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, которые создают шейп-файлы из входных файлов, которые не являются шейп-файлами, могут, следовательно, сохранить пустые значения как ноль или как некоторое очень маленькое отрицательное число (-DBL_MAX =-1.7976931348623158e+308). Это может привести к неожиданным результатам. Дополнительную информацию см. в разделе Замечания связанные с геообработкой для выходных данных шейп-файла.

  • Существует три опции для параметра Метод выбора окрестности. Если вы выбираете Золотой поиск, инструмент найдет оптимальные значения для параметра Диапазон расстояний или Число соседей, используя метод Поиска золотого сечения. Опция Интервал вручную тестирует соседей, используя пошаговый прирост расстояния между указанными диапазонами. В любом случае используется размер окрестности, который минимизирует значение Информационного критерия Акаике (AIC). Проблемы локальной мультиколлинеарности, тем не менее, препятствуют определению оптимальной ширины диапазона или числа соседей. Если вы получили ошибку или столкнулись с серьезными проблемами при разработке модели, можно попробовать указать определенное расстояние или число соседей с помощью опции Определено пользователем. Затем проверьте все числа обусловленности в выходном классе объектов, чтобы увидеть, какие значения связаны с проблемами локальной мультиколлинеарности..

  • Серьезные проблемы в схеме модели или ошибки выявления локальных уравнений, не содержащих в своих описаниях достаточное количество соседей, зачастую указывают на проблемы с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить, где встретилась проблема, запустите глобальную модель, используя Обобщенную линейную регрессию и проверьте значение фактора, увеличивающего дисперсию для каждой переменной величины. Если некоторые из значений Фактора, увеличивающего дисперсию, – большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать методу ГВР (географически взвешенная регрессия). Однако вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения их из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете значения для дома и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей Географически взвешенной регрессии, избегайте использования фиктивных значений, пространственной кластеризации категорий или номинальных переменных, или переменных с очень малым числом возможных значений.

  • Географически взвешенная регрессия это линейная модель, к которой предъявляются те же требования, что и к Обобщенной линейной регрессии. Просмотрите подобный разбор показателей проверки в разделе Как работает Географически взвешенная регрессия, чтобы убедиться, что ваша модель ГВР определена корректно. Раздел Плохо работает модель регрессии в статье Основы регрессионного анализа также включает информацию, которая поможет вам в точной настройке модели.

Синтаксис

arcpy.stats.GWR(in_features, dependent_variable, model_type, explanatory_variables, output_features, neighborhood_type, neighborhood_selection_method, {minimum_number_of_neighbors}, {maximum_number_of_neighbors}, {minimum_search_distance}, {maximum_search_distance}, {number_of_neighbors_increment}, {search_distance_increment}, {number_of_increments}, {number_of_neighbors}, {distance_band}, {prediction_locations}, {explanatory_variables_to_match}, {output_predicted_features}, {robust_prediction}, {local_weighting_scheme}, {coefficient_raster_workspace})
ParameterОбъяснениеТип данных
in_features

Класс пространственных объектов, содержащий зависимые и независимые переменные.

Feature Layer
dependent_variable

Числовое поле, содержащее значения, которые нужно смоделировать.

Field
model_type

Указывает тип моделируемых данных.

  • CONTINUOUS Значение dependent_variable является непрерывным. Будет использована модель Гаусса и инструмент вычислит регрессию по методу наименьших квадратов.
  • BINARY Значение dependent_variable указывает наличие или отсутствие. Это могут быть либо стандартные значения 1 или 0, или непрерывные значения, кодированные на основании некоего порогового значения. Используется логистическая модель регрессии.
  • COUNTЗначение dependent_variable дискретно и представляет события, например, число преступлений, заболеваний или дорожных происшествий. Используется модель регрессии Пуассона.
String
explanatory_variables
[explanatory_variables,...]

Перечень полей, представляющих независимые переменные в вашей регрессионной модели.

Field
output_features

Создаваемый новый класс объектов с оценками зависимых переменных и невязками.

Feature Class
neighborhood_type

Указывает, создается ли окрестность, используемая в модели, фиксированной, или допускаются изменения в пространстве как в зависимости от плотности объектов.

  • NUMBER_OF_NEIGHBORS Размер окрестности является функцией от указанного числа соседей, включенного в расчет для каждого объекта. Если объекты расположены плотно, пространственный экстент окрестности небольшой; если же объекты распределены в пространстве, пространственный экстент окрестности увеличивается.
  • DISTANCE_BANDРазмер окрестности постоянен (фиксирован) для каждого объекта.
String
neighborhood_selection_method

Задает, как будут определяться размер окрестности. Окрестность, выбранная методом GOLDEN_SEARCH или MANUAL_INTERVALS основана на минимизации значения Информационного критерия Акаике (AIC).

  • GOLDEN_SEARCHИнструмент найдет оптимальное расстояние или число соседей, исходя из характеристик данных, используя метод поиска золотого сечения.
  • MANUAL_INTERVALS Оценка соседей определяется значениями, указанными в параметрах minimum_number_of_neighbors и number_of_neighbors_increment, если выбрано NUMBER_OF_NEIGHBORS для параметра neighborhood_type, или параметрами minimum_search_distance и search_distance_increment, если выбран DISTANCE_BAND в качестве параметра neighborhood_type, а также параметр number_of_increments.
  • USER_DEFINED Размер окрестности будет определен параметрами number_of_neighbors или distance_band.
String
minimum_number_of_neighbors
(Дополнительный)

Минимальное число соседей каждого объекта, которое должно быть включено в расчет. Рекомендуется использовать не менее 30 соседей.

Long
maximum_number_of_neighbors
(Дополнительный)

Максимальное число соседей (до 1000) каждого объекта, которое должно быть включено в расчет.

Long
minimum_search_distance
(Дополнительный)

Минимальное расстояние поиска окрестности. Рекомендуется использовать расстояние, в пределах которого каждый объект имеет, по меньшей мере, 30 соседей.

Linear Unit
maximum_search_distance
(Дополнительный)

Максимальное расстояние поиска окрестности. Если в пределах заданного расстояния будет более 1000 соседей, инструмент будет использовать первые 1000 в расчете для целевого объекта.

Linear Unit
number_of_neighbors_increment
(Дополнительный)

Число, на которое в опции Интервал вручную будет увеличиваться число соседей в процессе оценки окрестности.

Long
search_distance_increment
(Дополнительный)

Расстояние, на которое в опции Интервал вручную будет увеличиваться окрестность в процессе оценки.

Linear Unit
number_of_increments
(Дополнительный)

Число размеров окрестности для оценки, начиная с указанного в параметре minimum_number_of_neighbors или minimum_search_distance.

Long
number_of_neighbors
(Дополнительный)

Число ближайших соседних объектов (до 1000), учитываемых для каждого объекта. Это должно быть целое число в диапазоне от 2 до 1000.

Long
distance_band
(Дополнительный)

Пространственный экстент окрестности.

Linear Unit
prediction_locations
(Дополнительный)

Класс объектов, представляющий местоположения, для которых вычисляются оценки. Каждый объект в этом наборе данных должен содержать значения для всех указанных независимых переменных. Зависимая переменная для этих объектов будет оценена на основании модели, калиброванной для данных во входном классе объектов. Для прогнозирования эти объекты должны быть в той же области изучения, что и in_features, или ближе (в пределах экстента плюс 15%).

Класс объектов, представляющий местоположения, для которых вычисляются оценки. Каждый объект в этом наборе данных должен содержать значения для всех указанных независимых переменных. Зависимая переменная для этих объектов будет оценена на основании модели, калиброванной для данных во входном классе объектов. Для прогнозирования эти объекты должны быть в той же области изучения, что и Входные объекты, или ближе (в пределах экстента плюс 15%).

Feature Layer
explanatory_variables_to_match
[explanatory_variables_to_match,...]
(Дополнительный)

Сопоставляет независимые переменные в prediction_locations с соответствующими независимыми переменными в параметре in_features. [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]], например.

Value Table
output_predicted_features
(Дополнительный)

Выходной класс объектов с оценками зависимой переменной для каждого prediction_location.

Feature Class
robust_prediction
(Дополнительный)

Определяет объекты, которые будут использоваться в вычислении прогнозирования.

  • ROBUSTОбъекты со значениями, отличающимися от среднего более чем на три средне-квадратических отклонения, (выбросы) и объекты с весом 0 (пространственные выбросы) будут исключены из расчета прогнозов, но получат прогнозируемое значение в выходном классе объектов. Это значение по умолчанию Короткое целое.
  • NON_ROBUSTВсе объекты будут использоваться в вычислении прогнозирования
Boolean
local_weighting_scheme
(Дополнительный)

Определяет тип кернфункции, которая будет использоваться при присвоении пространственных весов в модели. Кернфункция определяет, каким образом каждый объект связан с остальными объектами в пределах окрестности.

  • BISQUAREВсе 0 присваивается каждому объекту за пределами указанной окрестности. Это значение по умолчанию Короткое целое.
  • GAUSSIANВсем объектам присваивается какой-либо вес, причем значение веса снижается экспоненциально по мере удаления от целевого объекта.
String
coefficient_raster_workspace
(Дополнительный)

Рабочая область, где будут создаваться растровые коэффициенты. Если рабочая область задана, растры создаются для точки пересечения и каждой независимой переменной.

Workspace

Производные выходные данные

NameОбъяснениеТип данных
coefficient_raster_layers

Выходные растровые коэффициенты.

Растровый слой

Пример кода

GWR, пример 1 (окно Python)

В следующем скрипте окна Python показано, как используется инструмент GWR.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb”
arcpy.stats.GWR("US_Counties", "Diabetes_Percent", "CONTINUOUS", 
     "Inactivity_Percent;Obesity_Percent", "out_features", 
     "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", None, None, None, 
     None, None, None, None, None, None, None, None, None, "ROBUST", 
     "BISQUARE")
GWR, пример 2 (автономный скрипт)

Следующий автономный скрипт Python демонстрирует, как использовать инструмент GWR.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, and average household income.
 
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GWR("crime_counts", "total crimes", "COUNT", "YRBLT;TOTPOP;AVGHINC", 
     "out_features", "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", 30, None, None, None, 
     None, None, None, None, None, "prediction_locations", 
     "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", "predicted_counts", 
     "NON_ROBUST", "BISQUARE", r"c:\data\out_rasters")

Environments

Выходная система координат

Геометрия пространственных объектов проецируется в Выходную систему координат после завершения анализа.

Информация о лицензиях

  • Basic: Ограничено
  • Standard: Ограничено
  • Advanced: Да

Связанные разделы