Как работает Географически взвешенная регрессия (ГВР)

Географически взвешенная регрессия (ГВР) – один из нескольких методов пространственного регрессионного анализа, используемого в географии и других дисциплинах. Метод ГВР (географически взвешенная регрессия) оценивает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. Географически взвешенная регрессия создает отдельные уравнения путем включения зависимых и независимых переменных объектов, попадающих в пределы окрестности каждого целевого объекта. Форма и экстент каждой окрестности анализируется на основании входных параметров Тип окрестности и Метод выбора окрестности. Географически взвешенная регрессия должна быть применена к наборам данных с несколькими сотнями объектов. Для небольших наборов данных этот метод не пригоден, кроме того, он не работает с мультиточечными данными.

Инструмент Мультимасштабная географически взвешенная регрессия можно использовать для выполнения ГВР с данными в различных масштабах отношений между зависимой и независимыми переменными.

Примечание:

Инструмент был обновлен в версии ArcGIS Pro 2.3, в него включен ряд усовершенствований и элементов академического исследования, которые разрабатывались в течении последних лет, кроме того расширена поддержка дополнительных моделей. Включение моделей типа Количественная (Пуассона) и Бинарная (Логистическая) позволяет применить инструмент для решения целого ряда задач.

Возможное применение

Географически взвешенная регрессия используется для решения множества вопросов, например:

  • Имеется ли связь между уровнем образования и доходом в изучаемой области?
  • Возрастает ли заболеваемость определенными инфекциями по мере приближения к водным объектам?
  • Какие ключевые переменные объясняют высокую частоту лесных пожаров?
  • Какие среды обитания следует защитить, чтобы провести реинтродукцию исчезающих видов животных?
  • В каких районах учащиеся показывают высокие результаты на экзаменах и олимпиадах? Какие особенности могут быть с этим связаны? Где каждая из характеристик имеет наибольшее значение?
  • Сеть ли факторы, влияющие на рост онкозаболеваний в конкретных областях?

Входные данные

Для запуска инструмента ГВР укажите параметр Входные объекты, поле, представляющее Зависимую переменную и одно или несколько полей, представляющих Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском ГВР. Далее вы должны выбрать Тип модели, базируясь на анализируемых данных. Очень важно подобрать корректную модель, соответствующую данным. Ниже приведены описания типов моделей и принципы подбора модели в соответствии с данными.

Тип модели

В ГВР используются три типа моделей регрессии: Непрерывная, Бинарная и Количественная. Эти типы регрессии описаны в справочниках по статистике, как модели Гаусса, Логистическая и Пуассона, соответственно. Тип модели для анализа выбирается на основании измерений, представляющих Зависимую переменную и диапазона значений.

Непрерывные (Гауссовы)

Используйте Тип модели Непрерывная (Гауссова), если Зависимая переменная представлена широким диапазоном значений, например измерения температуры воздуха или объемы продаж. В идеале, зависимая переменная должна подчиняться принципу нормального распределения. Вы можете создать гистограмму для зависимой переменной, чтобы проверить соответствие нормальному распределению. Если ваша гистограмма симметрична и напоминает колокол ­ используйте тип модели Гауссова. Большинство значений сгруппированы около средней величины с небольшим числом значений, отстоящих от среднего. Равное число значений на правой и левой стороне кривой свидетельствует о том, что среднее и медианное значения для распределения совпадают). Если Зависимая переменная не соответствует нормальному распределению, рекомендуется переклассифицировать значения для использования в бинарном варианте. Например, если ваша зависимая переменная представляет усредненный уровень дохода, вы можете перекодировать диапазон значений в бинарное представление, где 1 соответствует уровню выше медианного значения для всей страны, а 0 - ниже. Поле непрерывных значений можно переклассифицировать в бинарное поле с помощью функции Переклассифицировать в инструменте Вычислить поле.

Бинарные (Логистические)

Используйте Тип модели Бинарная (логистическая) если Зависимая переменная представлена двумя возможными значениями, скажем удалось/не удалось или наличие - отсутствие. Поле, содержащее Зависимую переменную должно быть числовым и содержать два уникальных значения – 1 и 0. Результаты будет легче интерпретировать, если вы закодируете интересующее событие, например, успешное выполнение или наличие чего-то как 1, так как регрессия будет моделировать вероятность 1. Вариабельность нуля и единицы должна проявляться как локально, так и глобально. Если вы построите гистограмму Зависимой переменной, она должна отображать только единицу или ноль. Вы можете использовать инструмент Выбрать окружностью и выбрать несколько областей в разных местах карты, чтобы проверить локальную вариабельность и убедиться, что комбинация значений 0 и 1 встречается в каждом районе.

Количественные (Пуассона)

Рекомендуется использовать Тип модели Количественная (Пуассона) если Зависимая переменная содержит дискретные значения, и представляет явление с количественным измерением, скажем число преступлений. Количественные модели также можно использовать для Зависимой переменной, представляющий соотношение, где в знаменателе фиксированное значение, по которому можно нормировать, например объем продаж в месяц или число окнобольных на 10000 населения. Количественная (Пуассона) модель предполагает, что среднее и вариабельность Зависимой переменной равны и значения Зависимой переменной не могут быть отрицательными или содержать десятичные значения.

Выбор окрестности (ширина полосы)

Окрестность (также называемая шириной полосы) – это диапазон расстояний или число соседних объектов, используемых в каждом локальном уравнении регрессии, и это, возможно, самый важный параметр в Географически взвешенной регрессии, так как определяет степень сглаживания модели. Форма и экстент окрестностей анализируется на основании входных параметров Тип окрестности и Метод выбора окрестности с одним ограничением: если количество объектов в окрестности превысит 1000, то в каждое локальное уравнение будет включена только ближайшая 1000 объектов.

Параметр Тип окрестности может базироваться либо на Числе соседей, либо на Диапазоне расстояний. Если используется Число соседей, размер окрестности рассчитывается как функция от указанного числа соседей, при этом, если плотность объектов высокая, окрестность будет меньше, чем в случае, если объекты распределены в пространстве менее плотно. Если используется Диапазон расстояний, размер окрестности будет постоянным для каждого объекта в изучаемой области, то есть, объектов в окрестности будет больше, если они расположены близко друг к другу (высокая плотность), и меньше, если плотность объектов в пространстве ниже.

Параметр Метод выбора окрестности определяет, как задается размер окрестности (используется расстояние или число соседей). Окрестность, выбранная методом Золотого поиска или Интервала вручную всегда основана на минимизации значения Информационного критерия Акаике (AICc). Или вы можете установить нужное расстояние окрестности или число соседей с помощью опции Определено пользователем.

Если вы выбираете Золотой поиск, инструмент найдет оптимальные значения для Диапазона расстояний или Числа соседей, используя метод поиска золотого сечения. Золотой поиск сначала находит минимальное и максимальное расстояние, затем тестирует на определение значения AICc, пошагово увеличивая диапазон расстояний. Если в наборе данных более 1000 объектов, максимальное расстояние - это расстояние, в пределах которого для любого объекта имеется не более 1000 соседей. Минимальное расстояние – это расстояние, в пределах которого для каждого объекта можно найти, как минимум, 20 соседних объектов. Если в наборе менее 1000 объектов, максимальное расстояние – это расстояние, в пределах которого для каждого объекта имеется n/2 соседних объектов (половина от общего числа объектов считаются соседними), а минимальное расстояние – расстояние, в пределах которого для каждого объекта можно найти, как минимум 5% от n (5 процентов объектов от общего числа в наборе данных считаются соседними). Золотой поиск определяет расстояние или число соседних объектов, соответствующее тому размеру окружности, при котором значение AICc будет минимальным.

Параметры Минимальное расстояние поиска и Максимальное расстояние поиска (для Диапазона расстояний) и Минимальное число соседей и Максимальное число соседей (для Числа соседей) можно использовать для ограничения диапазона поиска, установив начальное и конечное расстояния для Золотого поиска вручную.

Схема присвоения локальных весов

Одно из преимуществ ГВР – возможность применить географический вес объектам в каждом локальном уравнении регрессии. Объект, расположенные далеко от точки регрессии получают меньший вес, и, соответственно, меньше влияют на результаты регрессии для целевого объекта; объекты, расположенные ближе, получают больший вес в уравнении регрессии. Веса определяются с использованием функции затухания расстояния по методу ядра, по которому можно определить как быстро веса уменьшаются при увеличении расстояния. Инструмент Географически взвешенная регрессия предлагает использовать две опции в параметре Схема присвоения локальных весов, Гаусса и Биквадрат.

Схема присвоения локальных весов Гаусса назначает вес объекту регрессии (объект i), и веса окружающим объектам (объекты j) с сглаженным и постепенным снижением по мере возрастания расстояния от объекта регрессии. Например, если между объектом i и j расстояние 0.25 единиц, результирующий вес в уравнении будет приблизительно 0.88. Если между объектом i и j расстояние 0.75 единиц, результирующий вес в уравнении будет приблизительно 0.32. Объект j будет оказывать тем меньшее влияние в уравнении регрессии, чем дальше он расположен от ключевого объекта. В схеме присвоения локальных весов Гаусса никогда не присваивается вес 0, но веса для объектов, расположенных на большом расстоянии от объекта регрессии очень малы, и не оказывают особого влияния на уравнение регрессии. Фактически, при использовании схемы присвоения локальных весов Гаусса, каждый объект во входном наборе данных является соседним объектом, с каким-либо весом. Но, для оптимизации расчетов, в случае, если число входных объектов превышает 1000, в каждое локальное уравнение регрессии включаются только ближайшие 1000 объектов. Схема присвоения локальных весов Гаусса гарантирует, что для каждого объекта регрессии имеется значительное количество соседей, что повышает шансы на наличие вариабельности значений в окрестности каждого объекта регрессии. Это предупреждает возникновение типичной проблемы географически взвешенной регрессии, которая называется – локальная коллинеарность. Используйте схему присвоения локальных весов Гаусса если влияние соседних объектов на уравнение регрессии постепенно уменьшается, но какое-то влияние присутствует всегда, независимо от расстояния, на котором расположен соседний объект по отношению к объекту регрессии.

Схема присвоения локальных весов Биквадрат похожа на Гаусса. Вес назначается объекту регрессии (объект i), и окружающим объектам (объекты j) с сглаженным и постепенным снижением по мере возрастания расстояния от объекта регрессии. Но все объекты, расположенные вне указанной окрестности, получают вес 0 и не влияют на локальную регрессию для ключевого объекта. Если сравнить схему присвоения весов Биквадрат и Гаусса, при одинаковой окрестности, значения весов падают более быстро в схеме Биквадрат. Использование схемы присвоения локальных весов Биквадрат позволит задать расстояние, при превышении которого объект перестает оказывать какое-либо влияние на результаты регрессии. Так как в схеме Биквадрат объекты при достижении определенного расстояния исключаются из регрессии, нет никаких гарантий, что в окрестности имеется достаточно соседних объектов, оказывающих влияние, для достижения ожидаемого результата регрессионного анализа. Используйте схему присвоения локальных весов Биквадрат если влияние соседних объектов на уравнение регрессии постепенно уменьшается, и известно расстояние, при достижении которого это влияние более не присутствует. Например, регрессия часто используется для моделирования цен на недвижимость, и цены на дома, расположенные в окрестности, обычно играют роль независимой переменной. Эти окружающие дома обычно называют аналогичные или сопоставимые. Кредитные организации иногда устанавливают правила, требующее, чтобы сопоставимые дома находились на максимальном расстоянии. В этом примере можно использовать метод Биквадрат, с определением окрестности, равной максимальному расстоянию, определенному кредитной организацией.

Прогнозирование

Вы можете использовать созданную модель регрессии для выполнения прогнозирования для остальных объектов (как точек, так и полигонов) в пределах области изучения. Для вычисления прогнозируемых значений необходимо, чтобы в каждом Прогнозируемом местоположении были значения для каждой Независимой переменной. Если имена полей во Входных объектах и Прогнозируемых местоположений не совпадают, предоставляется параметр сопоставления переменных. При сопоставлении независимых переменных поля во Входных объектах и Прогнозируемых местоположениях должны быть одного типа (например поля типа double сопоставляются с double).

Растровые коэффициенты

Немаловажный аспект ГВР – возможность изучить пространственно вариабельные отношения. Один из способов визуализировать, каким отношения между независимыми переменными и зависимой переменной изменяются в пространстве – создать растровые коэффициенты. При задании пути к папке для Рабочей области растровых коэффициентов, инструмент ГВР создаст поверхности растровых коэффициентов для каждого пересечения модели с каждой независимой переменной. Разрешение растра можно настраивать с помощью параметра среды Размер ячейки. Окрестность (ядро) строится вокруг каждой ячейки растра с использованием параметров Тип окрестности и Схема присвоения локальных весов. Расстояния, на основе которых присваиваются веса, вычисляется из центра ячейки растра до всех входных объектов, попадающих в пределы окрестности (ширина полосы). Эти веса используются для вычисления уникального уравнения регрессии для каждой ячейки растра. Коэффициенты меняются от ячейки к ячейке, вследствие изменения весов, основанных на расстояниях, так как в пределы окрестности (ширины полосы) попадают разные объекты.

Примечание:

В настоящее время нет единого мнения о том, как оценить достоверность в коэффициентах модели ГВР. Хотя t-критерии использовались для определения, насколько значительно оценочное значение коэффициента отличается от 0, правомерность этого подхода до сих пор изучается и анализируется. Один из подходов к неформальной оценке коэффициентов состоит в том, чтобы разделить коэффициент на стандартную ошибку, указанную для каждого объекта, как способ количественной оценки с соответствующей стандартной ошибкой и визуализировать эти результаты, фокусируясь на кластерах высоких стандартных ошибок относительно их коэффициентов.

Выходные данные

Инструмент Географически взвешенная регрессия производит множество различных результатов. Итоговая информация по модели ГВР и суммарная статистика доступна в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку, или разверните раздел сообщений на панели Геообработка. Вы также можете просмотреть сообщения, касающиеся ранее запущенного инструмента Географически взвешенная регрессия в истории геообработки. Инструмент также создает Выходные объекты, диаграммы, и, дополнительно, Выходные объекты прогнозирования, а также поверхности растровых коэффициентов. Выходные объекты и связанные с ним диаграммы автоматически добавляется в панель Содержание со схемой отображения от горячего к холодному, применяемой в моделировании невязок. Показатели проверки и диаграммы зависят от Типа модели Входных объектов, и описаны ниже.

Общая статистика модели вычисляется для всех моделей.

Непрерывные (Гауссовы)

Класс объектов и добавленные поля

Помимо невязок регрессии, параметр Выходные объекты включает поля для измеренных и прогнозированных значений зависимой переменной, число обусловленности (COND), параметр Локальный R2, коэффициенты независимых переменных и стандартные ошибки.

Значения показателей Пересечение, Стандартная ошибка пересечения, Коэффициенты и Стандартные ошибки для каждой независимой переменной, Прогнозы, Невязки, Нормированные невязки, Влияние, Расстояние Кука, Локальный R-квадрат и Число обусловленности также представлены в отчете. Многие из этих полей обсуждаются в разделе Как работает регрессия OLS. Значения Влияния и Расстояния Кука измеряют влияние объекта на оценку коэффициентов регрессии. Вы можете использовать гистограмму для определения небольшого числа объектов, с влиянием больше, чем остальные объекты набора данных. Эти объекты часто являются выбросами и смещают оценку коэффициентов, и результаты модели можно улучшить, удалив их и перезапустив инструмент. Значение локального R-квадрат представлено в диапазоне от 0 до 1, и представляет выраженность корреляции в локальной модели для объекта. Число обусловленности является мерой устойчивости оценки коэффициентов. Число обусловленности, близкое к 1000 указывает на нестабильность модели; это обычно указывает на наличие независимых переменных, с высоким уровнем корреляции друг с другом.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Дополнительно приведены различные результаты проверок модели:

Проверки показателей модели для типа модели Непрерывная
  • R2 – R-квадрат показывает, насколько модель соответствует действительности. Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии. Знаменателем при вычислении R2 является сумма квадратов значений зависимых переменных. При добавлении каждой независимой переменной знаменатель модели не будет меняться, однако числитель будет меняться, создавая ошибочное впечатление, что модель близка к действительности. См. параметр Скорректированный R2 ниже.
  • AdjR2 – в свете описанных выше проблем вычисление скорректированного значения R-квадрата нормирует числитель и знаменатель по их степеням свободы. При этом компенсируется число переменных в модели, и, следовательно, значение Скорректированный R2 всегда меньше, нежели значение просто R2. Однако при такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. В ГВР эффективное число степеней свободы является функцией от размера окрестности, поэтому корректировка может быть более заметна в глобальной модели, например, Обобщенная линейная регрессия (ОЛР). По этой причине желательно использовать значения AICc при сравнении моделей.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и ОЛР является одним из вариантов оценки преимуществ перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР).

    См. Gollini et al. в разделе Дополнительные ресурсы, где приведены формулы, используемые для вычисления AICc для всех типов моделей.

  • Квадрат сигмы – это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Это значение является квадратным корнем из нормированной суммы квадратов невязок, деленной на эффективные степени свободы невязки. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка максимального правдоподобия (MLE) дисперсии (квадрата стандартного отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением самой точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

Инструмент выводит матрицу рассеивания и гистограмму на панель Содержание. Матрица рассеивания включает в себя одну зависимую переменную и до девяти пояснительных переменных. Гистограмма отображает отклонения невязки и кривую нормального распределения.

Бинарные (Логистические)

Класс объектов и добавленные поля

В отчете представлены показатели: Пересечение (INTERCEPT), Стандартная ошибка пересечения (SE_INTERCEPT), Коэффициенты и Стандартные ошибки для каждой исследовательской переменной, а также Вероятность 1, Прогноз, Отклонение невязки, Влияние и Локальный процент отклонения.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Кроме того, сообщаются результаты следующих проверок:

  • % объяснимого отклонения глобальной модели (не пространственной) - измерение, позволяющее оценить, уровень соответствия и производительность глобальной модели (ОЛР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели - измерение, позволяющее оценить, уровень соответствия и производительность локальной модели (ГВР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели в сравнении с глобальной моделью – по этой пропорции можно оценить преимущество перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР) через сравнение суммы квадратов невязок локальной модели с суммой квадратов невязок глобальной модели. Его значение варьируется между 0.0 и 1.0, и высокие значения говорят о том, что локальная модель регрессии подходит лучше, чем глобальная модель.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и МНК является одним из вариантов оценки преимуществ перехода от глобальной модели (МНК) к локальной модели регрессии (ГВР).
  • Сигма в квадрате – это значение является нормированной суммой невязок квадратов, деленной на эффективные степени свободы невязки. Это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка максимального правдоподобия (MLE) дисперсии (квадрата стандартного отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением самой точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

В результате работы инструмента строятся диаграмма рассеяния, ящичковая диаграмма и гистограмма отклонений невязок.

Количественные (Пуассона)

Класс объектов и добавленные поля

В отчете представлены показатели: Пересечение (INTERCEPT), Стандартная ошибка пересечения (SE_INTERCEPT), Коэффициенты и Стандартные ошибки для каждой исследовательской переменной, а также прогнозируемое значение перед логарифмическим парообразованием (RAW_PRED) Вероятность 1, Прогноз, Отклонение невязки, Влияние и Локальный процент отклонения.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Кроме того, на снимке экрана приводятся результаты проверок, интерпретация которых приведена ниже:

  • % объяснимого отклонения глобальной модели (не пространственной) - измерение, позволяющее оценить, уровень соответствия и производительность глобальной модели (ОЛР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели - измерение, позволяющее оценить, уровень соответствия и производительность локальной модели (ГВР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели в сравнении с глобальной моделью – по этой пропорции можно оценить преимущество перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР) через сравнение суммы квадратов невязок локальной модели с суммой квадратов невязок глобальной модели. Его значение варьируется между 0.0 и 1.0, и высокие значения говорят о том, что локальная модель регрессии подходит лучше, чем глобальная модель.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и МНК является одним из вариантов оценки преимуществ перехода от глобальной модели (МНК) к локальной модели регрессии (ГВР).
  • Сигма в квадрате – это значение является нормированной суммой невязок квадратов, деленной на эффективные степени свободы невязки. Это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка максимального правдоподобия (MLE) дисперсии (квадрата стандартного отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением самой точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

В панели Содержание представлена Диаграмма рассеяния (может включать до 19 переменных) и гистограмма отклонений невязок с линией нормального распределения.

Замечания и советы по внедрению

В глобальных регрессионных моделях, таких как ОЛР, результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю). Инструмент Географически взвешенная регрессия строит уравнение локальной регрессии для каждого объекта в наборе данных. Если значения для конкретной независимой переменной кластеризованы в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Число обусловленности в Выходных объектах указывает на нестабильность результатов вследствие локальной мультиколлинеарности. Как правило, не стоит доверять результатам для объектов с числом обусловленности более 30, равным 0 или, для шейп-файлов, равным 1.7976931348623158e+308. Номер условия настраивается по шкале, чтобы скорректировать количество исследуемых переменных в модели. Это позволяет проводить прямое сравнение числа условий между моделями, использующими различные числа независимых переменных.

Ошибки при разработке модели часто свидетельствует о наличии проблем с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить местоположение проблемы, запустите модель, используя ОЛР и проверьте значение фактора, увеличивающего дисперсию, для каждой независимой переменной. Если некоторые из значений Фактора, увеличивающего дисперсию, – большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать методу ГВР (географически взвешенная регрессия). Однако вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения тех переменных из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете значения для дома и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей типа Гаусса или Пуассона, избегайте использования фиктивных или бинарных значений, пространственной кластеризации номинальных или категорийных переменных с логистическим типом модели или переменных с очень малым числом возможных значений.

Проблемы локальной мультиколлинеарности могут помешать инструменту подобрать оптимальный Диапазон расстояний или Число соседей. Попробуйте указать Интервал вручную или Определено пользователем для Диапазона расстояний или числа соседей. Затем проверьте все числа обусловленности в Выходном классе объектов, чтобы увидеть, какие объекты связаны с проблемами локальной мультиколлинеарности (число обусловленности больше 30). Вы можете захотеть временно убрать эти проблемные объекты до того, как вы не найдете оптимального расстояния/числа соседей. Помните, что результаты, для которых число обусловленности большим 30, ненадежны.

Оценки параметров и спрогнозированные значения для Географически взвешенной регрессии рассчитываются с помощью следующей функции пространственного взвешивания: exp(-d^2/b^2). Могут быть различия в функции взвешивания в различных программных продуктах , в которые внедрена Географически взвешенная регрессия. Следовательно, результаты, полученные инструментом ГВР могут не совпадать с результатами, получаемыми в специализированных программных пакетах, выполняющих ГВР.

Дополнительные ресурсы

Существует целый ряд ресурсов, содержащих подробную информацию как о Обобщенной линейной регрессии, так и о Географически взвешенной регрессии. Начните с Основ регрессионного анализа или обратитесь к Руководство по регрессионному анализу.

Можно также воспользоваться ресурсами ниже:

Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.

Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.

Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.

Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.