Как работает Географически взвешенная регрессия

Инструмент Географически взвешенная регрессия использует географически взвешенную регрессию – один из методов пространственного регрессионного анализа, который используется в географии и других дисциплинах. Метод ГВР (географически взвешенная регрессия) оценивает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. Географически взвешенная регрессия создает отдельные уравнения путем включения зависимых и независимых переменных объектов, попадающих в пределы окрестности каждого целевого объекта. При использовании инструмента Географически взвешенная регрессия форма и экстент каждой окрестности анализируется на основании значений параметров Тип окрестности и Метод выбора окрестности. Инструмент поддерживает непрерывные (Гауссовы), бинарные (двоичные) и количественные (Пуассона) данные в качестве зависимой переменной. Географически взвешенная регрессия применяется к наборам данных, как минимум, с несколькими сотнями объектов.

Примечание:

Инструмент Мультимасштабная географически взвешенная регрессия можно использовать для выполнения ГВР с данными в различных масштабах отношений между зависимой и независимыми переменными.

Возможное применение

Инструмент Географически взвешенная регрессия можно использовать используется для ответов на самые разные вопросы, например:

  • Имеется ли связь между уровнем образования и доходом в изучаемой области?
  • Возрастает ли заболеваемость определенными инфекциями по мере приближения к водным объектам?
  • Какие ключевые переменные объясняют высокую частоту лесных пожаров?
  • Какие среды обитания следует защитить, чтобы провести реинтродукцию исчезающих видов животных?
  • В каких районах учащиеся показывают высокие результаты на экзаменах и олимпиадах? Какие особенности могут быть с этим связаны? Где каждая из характеристик имеет наибольшее значение?
  • Сеть ли факторы, влияющие на рост онкозаболеваний в конкретных областях?

Входные данные

Для запуска инструмента Географически взвешенная регрессия укажите параметр Входные объекты, с полем, представляющим зависимую переменную, и одно или несколько полей, представляющих независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения, чтобы сделать набор данных полным перед запуском инструмента Географически взвешенная регрессия. Далее вы должны выбрать тип модели, базируясь на анализируемых данных. Очень важно подобрать корректную модель, соответствующую данным. Ниже приведены описания типов моделей и принципы подбора модели в соответствии с данными.

Типы моделей

В Географически взвешенной регрессии используются три типа моделей регрессии: Непрерывная, Бинарная и Количественная. Эти типы регрессии известны как модели наименьших квадратов, логистическая и Пуассона, соответственно. На основании значения параметра Тип модели для зависимой переменной определяется тип измерений или суммирования значений, а также диапазон значений.

Непрерывные (Гауссовы)

Непрерывная (Гауссова) используется, если зависимая переменная представлена широким диапазоном значений, например измерения температуры воздуха или объемы продаж. В идеале зависимая переменная должна подчиняться принципу нормального распределения. Вы можете создать гистограмму для зависимой переменной, чтобы проверить соответствие нормальному распределению. Если ваша гистограмма симметрична и напоминает колокол ­ используйте тип модели Гауссова. Большинство значений сгруппированы около средней величины с небольшим числом значений, отстоящих от среднего. Равное число значений на правой и левой стороне кривой свидетельствует о том, что среднее и медианное значения для распределения совпадают). Если зависимая переменная не соответствует нормальному распределению, рекомендуется переклассифицировать значения для использования в бинарном варианте. Например, если зависимая переменная представляет усредненный уровень дохода, вы можете перекодировать диапазон значений в бинарное представление, где 1 соответствует уровню выше медианного значения для всей страны, а 0 - ниже. Вы можете переклассифицировать поле непрерывных значений в бинарное поле с помощью функции Переклассифицировать в инструменте Вычислить поле.

Бинарные (Логистические)

Бинарная (логистическая) используется, если зависимая переменная представлена двумя возможными значениями, скажем удалось или не удалось, или наличие - отсутствие. Поле, содержащее зависимую переменную, должно быть числовым и содержать только единицы и нули. Результаты будет легче интерпретировать, если вы закодируете интересующее событие, например, успешное выполнение или наличие чего-то как 1, так как регрессия будет моделировать вероятность 1. Вариабельность нуля и единицы должна проявляться как локально, так и глобально. Вы можете использовать инструмент Суммарная статистика окрестности для вычисления среднеквадратического отклонения в локальной окрестности, чтобы найти области, содержащие одинаковые значения.

Количественные (Пуассона)

Используйте тип модели Количественная (Пуассона), если зависимая переменная содержит дискретные значения, и представляет явление с количественным измерением, скажем число преступлений. Количественные модели также можно использовать для зависимой переменной, представляющий соотношение, где в знаменателе фиксированное значение, по которому можно нормировать, например объем продаж в месяц или число окнобольных на 10000 населения. Значения зависимой переменной не могут быть отрицательными или содержать десятичные значения.

Типы окрестностей

Окрестность – это диапазон расстояний или число соседних объектов, используемых в каждом локальном уравнении регрессии, и это самый важный параметр в Географически взвешенной регрессии, так как определяет оценки локальных моделей. Форма и экстент окрестности анализируется на основании значений для параметров Тип окрестности и Метод выбора окрестности.

Вы можете выбрать один из двух типов окрестностей - фиксированное число соседей или диапазон расстояний. Если используется фиксированное число соседей, размер окрестности зависит от плотности соседних точек - если плотность объектов высокая, окрестность будет меньше, а если плотность низкая - окрестность будет большего размера. Если используется диапазон расстояний, размер окрестности будет постоянным для каждого объекта в изучаемой области, то есть, объектов в окрестности будет больше, если они расположены близко друг к другу (высокая плотность), и меньше, если плотность объектов в пространстве ниже.

Параметр метод выбора окрестности определяет, как задается размер окрестности (используется расстояние или число соседей). Окрестность, выбранная методом Золотого поиска или Интервала вручную всегда основана на минимизации значения Информационного критерия Акаике (AICc). Или вы можете установить нужное расстояние окрестности или число соседей с помощью опции Определено пользователем.

Если вы выбираете Золотой поиск, инструмент найдет оптимальные значения для диапазона расстояний или числа соседей, используя метод поиска золотого сечения. Этот метод сначала находит минимальное и максимальное расстояние, затем тестирует на определение значения AICc, пошагово увеличивая диапазон расстояний. Максимальное расстояние – это расстояние, в пределах которого половина от общего числа объектов считаются соседними, а минимальное расстояние – расстояние, в пределах которого для каждого объекта как минимум 5% от общего числа объектов - соседи.

Параметры Минимальное расстояние поиска и Максимальное расстояние поиска (для диапазона расстояний) и Минимальное число соседей и Максимальное число соседей (для числа соседей) можно использовать для ограничения диапазона поиска в методе золотой поиск.

Примечание:

Если параметры окрестности приведут к выявлению более 1000 соседей, использоваться будут только ближайшие 1000 объектов.

Схема присвоения локальных весов

Одно из преимуществ ГВР – возможность применить географический вес объектам в каждом локальном уравнении регрессии. Объект, расположенные далеко от точки регрессии получают меньший вес, и, соответственно, меньше влияют на результаты регрессии для целевого объекта; объекты, расположенные ближе, получают больший вес в уравнении регрессии. Веса определяются с использованием функции ядра, где можно задать, насколько быстро веса уменьшаются при увеличении расстояния. Инструмент Географически взвешенная регрессия предлагает использовать две опции в параметре Схема присвоения локальных весов, Гаусса и Биквадрат.

Схема присвоения локальных весов Гаусса назначает вес одному фокальному объекту, а веса соседних объектов постепенно снижаются с увеличением расстояния от фокального объекта. Например, если один объект расположен на расстоянии 0.25 от другого, результирующий вес в уравнении будет приблизительно 0.88. Если между объектами расстояние 0.75, результирующий вес в уравнении будет приблизительно 0.32. В схеме присвоения локальных весов Гаусса никогда не присваивается вес 0, но веса для объектов, расположенных на большом расстоянии от объекта регрессии очень малы, и не оказывают особого влияния на уравнение регрессии. При использовании схемы присвоения локальных весов Гаусса, каждый объект во входном наборе данных является соседним объектом, с каким-либо весом. Но, для оптимизации расчетов, в случае, если число входных объектов превышает 1000, в каждое локальное уравнение регрессии включаются только ближайшие 1000 объектов. Схема присвоения локальных весов Гаусса гарантирует, что для каждого объекта регрессии имеется значительное количество соседей, что повышает шансы на наличие вариабельности значений в окрестности каждого объекта регрессии. Это предупреждает возникновение типичной проблемы географически взвешенной регрессии, которая называется – локальная коллинеарность. Используйте схему присвоения локальных весов Гаусса если влияние соседних объектов на уравнение регрессии постепенно уменьшается, но какое-то влияние присутствует всегда, независимо от расстояния, на котором расположен соседний объект по отношению к объекту регрессии.

Схема присвоения локальных весов Биквадрат похожа на Гаусса. Вес назначается одному фокальному объекту, а веса соседних объектов постепенно снижаются с увеличением расстояния от фокального объекта. Но все объекты, расположенные вне указанной окрестности, получают вес 0 и не влияют на локальную регрессию для ключевого объекта. Если сравнить схему присвоения весов Биквадрат и Гаусса, при одинаковой окрестности, значения весов уменьшаются быстрее в схеме Биквадрат. Использование схемы присвоения локальных весов Биквадрат позволит задать расстояние, при превышении которого объект перестает оказывать какое-либо влияние на результаты регрессии. Так как в схеме Биквадрат объекты при достижении определенного расстояния исключаются из регрессии, нет никаких гарантий, что в окрестности имеется достаточно соседних объектов, оказывающих влияние, для достижения ожидаемого результата регрессионного анализа. Используйте схему присвоения локальных весов Гаусса, если влияние соседних объектов на уравнение регрессии постепенно уменьшается, и известно расстояние, при достижении которого это влияние отсутствует. Например, регрессия часто используется для моделирования цен на недвижимость, и цены на дома, расположенные в окрестности, обычно играют роль независимой переменной. Эти окружающие дома обычно называют аналогичные или сопоставимые. Кредитные организации иногда устанавливают правила, требующее, чтобы сопоставимые дома находились на максимальном расстоянии. В этом примере можно использовать метод присвоения весов Биквадрат, с указанием окрестности, равной максимальному расстоянию, определенному кредитной организацией.

Прогнозирование

Вы можете использовать созданную модель регрессии для выполнения прогнозирования для остальных объектов (как точек, так и полигонов) в пределах области изучения, указав объекты в параметре Прогнозируемые местоположения. В классе объектов прогнозируемых местоположений должны быть поля, совпадающие с каждой независимой переменной в классе входных объектов. Если имена полей во входных объектах и в прогнозируемых местоположениях не совпадают, необходимо сопоставить соответсвтующие поля в параметре Независимые переменные для сопоставления Для сопоставления тип полей должен совпадать (то есть, поле double нельзя сопоставить с полем integer).

Растровые коэффициенты

Основное преимущество метода ГВР - возможность выбрать наиболее подходящую модель регрессии для анализа пространственно вариабельных отношений. Один из способов визуализировать, каким отношения между независимыми переменными и зависимой переменной изменяются в пространстве – создать растровые коэффициенты. При задании пути к папке для Рабочей области растровых коэффициентов, инструмент Географически Взвешенная Рергессия создаст поверхности растровых коэффициентов для каждого пересечения модели с каждой независимой переменной. Разрешение растра можно настраивать с помощью параметра среды Размер ячейки. Окрестность строится вокруг каждой ячейки растра на основании параметров типа окрестности и схемы присвоения локальных весов. Веса вычисляются от центра ячейки растра для всех входных объектов в окрестности, и эти веса используются для вычисления уникального уравнения регрессии для каждой ячейки растра. Коэффициенты меняются от ячейки к ячейке, так как соседние объекты и веса также меняютс от ячейукеи к ячейке.

Примечание:

В настоящее время нет единого мнения о том, как оценить достоверность в коэффициентах модели ГВР. Хотя t-критерии использовались для определения, насколько значительно оценочное значение коэффициента отличается от 0, правомерность этого подхода до сих пор изучается и анализируется. Один из подходов к неформальной оценке коэффициентов состоит в том, чтобы разделить коэффициент на стандартную ошибку, указанную для каждого объекта, как способ количественной оценки с соответствующей стандартной ошибкой и визуализировать эти результаты, фокусируясь на кластерах высоких стандартных ошибок относительно их коэффициентов.

Выходные данные

Инструмент Географически взвешенная регрессия производит множество различных результирующих данных. Сводка по модели ГВР и статистические сводки возвращаются в виде сообщений инструмента. Инструмент также создает класс выходных объектов, диаграммы, и, дополнительно, объекты прогнозирования и поверхности растровых коэффициентов. Выходные объекты и связанные с ним диаграммы автоматически добавляется в панель Содержание со схемой отображения от горячего к холодному, применяемой в моделировании невязок. Проверки и диаграммы зависят от указанного типа модели.

Непрерывные (Гауссовы)

Тип модели Гауссова предполагает, что значения зависимой переменной непрерывные.

Выходные объекты

Помимо невязок регрессии, класс выходных объектов включает поля для измеренных и прогнозированных значений зависимой переменной, число обусловленности, параметр Локальный R-квадрат, коэффициенты независимых переменных и стандартные ошибки. Выходные объекты добавляются на карту как слой, и символы присваиваются по значениям стандартизированных невязок. Положительные значения невязок указывают на то, что значение зависимой переменной выше, чем прогнозируемое значение (прогноз занижен), а отрицательные значения указывают на то, что значение зависимой переменной ниже прогнозируемого (прогноз завышен).

Значения показателей Пересечение, Стандартная ошибка пересечения, Коэффициенты и Стандартные ошибки для каждой независимой переменной, Прогнозы, Невязки, Нормированные невязки, Влияние, Расстояние Кука, Локальный R-квадрат и Число обусловленности также представлены в отчете. Многие из этих полей обсуждаются в разделе Как работает регрессия OLS. Значения Влияния и Расстояния Кука измеряют влияние объекта на оценку коэффициентов регрессии. Вы можете использовать гистограмму для определения небольшого числа объектов, с влиянием больше, чем остальные объекты набора данных. Эти объекты часто являются выбросами и смещают оценку коэффициентов, и результаты модели можно улучшить, удалив их и перезапустив инструмент. Значение локального R-квадрат представлено в диапазоне от 0 до 1, и представляет выраженность корреляции в локальной модели для объекта. Число обусловленности является мерой устойчивости оценки коэффициентов. Число обусловленности, близкое к 1000 указывает на нестабильность модели; это обычно указывает на наличие независимых переменных, с высоким уровнем корреляции друг с другом.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Дополнительно приведены различные результаты проверок модели:

Проверки показателей модели для типа модели Непрерывная
  • R2 – R-квадрат показывает, насколько модель соответствует действительности. Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии. Знаменателем при вычислении R2 является сумма квадратов значений зависимых переменных. При добавлении каждой независимой переменной знаменатель модели не будет меняться, однако числитель будет меняться, создавая ошибочное впечатление, что модель близка к действительности. См. Скорректированный R2 ниже.
  • AdjR2 – в свете описанных выше проблем вычисление скорректированного значения R-квадрата нормирует числитель и знаменатель по их степеням свободы. При этом компенсируется число переменных в модели, и, следовательно, значение Скорректированный R2 всегда меньше, нежели значение просто R2. Однако при такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. В ГВР эффективное число степеней свободы является функцией от размера окрестности, поэтому корректировка может быть более заметна в глобальной модели, например, Обобщенная линейная регрессия. По этой причине желательно использовать значения AICc при сравнении моделей.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и обобщенной линейной регрессией является одним из вариантов оценки преимуществ перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР).

    См. Gollini et al. в разделе Дополнительные ресурсы, где приведены формулы, используемые для вычисления AICc для всех типов моделей.

  • Квадрат сигмы – это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Это значение является квадратным корнем из нормированной суммы квадратов невязок, деленной на эффективные степени свободы невязки. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка максимального правдоподобия (MLE) дисперсии (квадрата стандартного отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

Инструмент выводит матрицу рассеивания и гистограмму на панель Содержание. Матрица рассеивания включает в себя одну зависимую переменную и до девяти пояснительных переменных. Гистограмма отображает отклонения невязки и кривую нормального распределения.

Бинарные (Логистические)

Для бинарной регрессии предполагается, что значения зависимой бинарны (0 или 1).

Класс объектов и добавленные поля

Выходные объекты содержат поля для значений Отсечения (INTERCEPT), Стандартной ошибки отсечения (SE_INTERCEPT), Коэффициентов и Стандартных ошибок для каждой независимой переменной, а также поля Вероятность 1, Прогноз, Отклонение невязки, Влияние и Локальный процент отклонения.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Кроме того, сообщаются результаты следующих проверок:

  • % объяснимого отклонения глобальной модели (не пространственной) - измерение, позволяющее оценить, уровень соответствия и производительность глобальной модели (ОЛР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели - измерение, позволяющее оценить, уровень соответствия и производительность локальной модели (ГВР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели в сравнении с глобальной моделью – по этой пропорции можно оценить преимущество перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР) через сравнение суммы квадратов невязок локальной модели с суммой квадратов невязок глобальной модели. Его значение варьируется между 0.0 и 1.0, и высокие значения говорят о том, что локальная модель регрессии подходит лучше, чем глобальная модель.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и метода наименьших квадратов является одним из вариантов оценки преимуществ перехода от глобальной модели (МНК) к локальной модели регрессии (ГВР).
  • Сигма в квадрате – это значение является нормированной суммой невязок квадратов, деленной на эффективные степени свободы невязки. Это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка MLE дисперсии (квадрата среднеквадратического отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

В результате работы инструмента строятся диаграмма рассеяния, ящичковая диаграмма и гистограмма отклонений невязок.

Количественные (Пуассона)

Тип модели Пуассона предполагает, что значения зависимой переменной количественные.

Класс объектов и добавленные поля

Выходные объекты содержат поля для значений Отсечения (INTERCEPT), Стандартной ошибки отсечения (SE_INTERCEPT), Коэффициентов и Стандартных ошибок для каждой независимой переменной, а также прогнозированное значение перед логарифмическим преобразованием (RAW_PRED), и значения Прогноза, Отклонения невязки, Влияния, Локального процента отклонения и Числа обусловленности.

Интерпретация сообщений и показателей диагностики

В сообщениях приводится подробная информация об анализе, включая количество анализируемых объектов, зависимые и независимые переменные, а также заданное число соседей. Кроме того, сообщаются результаты следующих проверок:

  • % объяснимого отклонения глобальной модели (не пространственной) - измерение, позволяющее оценить, уровень соответствия и производительность глобальной модели (ОЛР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели - измерение, позволяющее оценить, уровень соответствия и производительность локальной модели (ГВР). Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии.
  • % объяснимого отклонения локальной модели в сравнении с глобальной моделью – по этой пропорции можно оценить преимущество перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР) через сравнение суммы квадратов невязок локальной модели с суммой квадратов невязок глобальной модели. Его значение варьируется между 0.0 и 1.0, и высокие значения говорят о том, что локальная модель регрессии подходит лучше, чем глобальная модель.
  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и МНК является одним из вариантов оценки преимуществ перехода от глобальной модели (МНК) к локальной модели регрессии (ГВР).
  • Сигма в квадрате – это значение является нормированной суммой невязок квадратов, деленной на эффективные степени свободы невязки. Это оценка наименьших квадратов дисперсии (квадрата стандартного отклонения) для невязок. Предпочтительно иметь небольшие значения этой величины. Квадрат сигмы используется для вычисления AICc.
  • Квадрат сигмы MLE – это оценка MLE дисперсии (квадрата среднеквадратического отклонения) невязок. Предпочтительно иметь небольшие значения этой величины. Это значение вычисляется путем деления суммы квадратов невязок на число входных объектов.
  • Эффективное число степеней свободы – значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранным размером окрестности. Поскольку окрестность стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели ОЛР. Для очень большой окрестности эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если окрестность невелика и стремится к нулю, географические веса для каждого объекта стремятся к нулю, за исключением точки регрессии. Для очень маленькой окрестности эффективное число коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления нескольких диагностических показателей.
  • Уравненное критическое значение статистики Псевдо-Т - это уравненное критическое значение используемое для оценки статистической значимости в двухстороннем t-критерии для достоверности 95%. Это значение соответствует уровню значимости (альфа) -0,05, разделенному на число эффективных степеней свободы. Это выравнивание определяет групповую вероятность ошибки (FWER) значимости независимых переменных.

Выходные диаграммы

В панели Содержание представлена Диаграмма рассеяния (может включать до 19 переменных) и гистограмма отклонений невязок с линией нормального распределения.

Замечания и советы по внедрению

В глобальных регрессионных моделях, таких как ОЛР, результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю). Инструмент Географически взвешенная регрессия строит уравнение локальной регрессии для каждого объекта в наборе данных. Если значения для конкретной независимой переменной кластеризованы в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Число обусловленности в выходном классе объектов указывает на нестабильность результатов вследствие локальной мультиколлинеарности. Не стоит доверять результатам для объектов с числом обусловленности более 30, равным 0 или, для шейп-файлов, равным 1.7976931348623158e+308. Номер условия масштабируется с поправкой на количество независимых переменных в модели. Это позволяет проводить прямое сравнение числа условий между моделями, использующими различные числа независимых переменных.

Ошибки при разработке модели часто свидетельствует о наличии проблем с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить, где встретилась проблема, запустите инструмент Географически взвешенная регрессия, и проверьте значение фактора, увеличивающего дисперсию для каждой переменной величины. Если некоторые из значений Фактора, увеличивающего дисперсию, – большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать инструменту. Однако вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения тех переменных из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете значения для дома и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей типа Гаусса или Пуассона, избегайте использования фиктивных или бинарных значений, пространственной кластеризации номинальных или категорийных переменных с логистическим типом модели или переменных с очень малым числом возможных значений.

Проблемы локальной мультиколлинеарности могут помешать инструменту подобрать оптимальный Диапазон расстояний или Число соседей. Попробуйте указать Интервал вручную или Определено пользователем для Диапазона расстояний или числа соседей. Затем проверьте все числа обусловленности в Выходном классе объектов, чтобы увидеть, какие объекты связаны с проблемами локальной мультиколлинеарности (число обусловленности больше 30). Вы можете захотеть временно убрать эти объекты до того, как вы не найдете оптимального расстояния/числа соседей. Помните, что результаты, для которых число обусловленности большим 30, ненадежны.

Дополнительные ресурсы

Если вы хотите узнать больше об Обобщенной линейной регрессии и Географически взвешенной регрессии, есть множество ресурсов. Начните с Основ регрессионного анализа или обратитесь к Руководство по регрессионному анализу.

Можно также воспользоваться ресурсами ниже:

Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.

Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.

Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.

Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.