Инструмент Мультимасштабная географически взвешенная регрессия (МГВР) использует продвинутую методику пространственной регрессии, которая используется в географии, городском планировании и различных других отраслях. В этом инструменте улучшен алгоритм моделей Географически взвешенной регрессии (ГВР), где используются зависимая и независимые переменные в пределах окрестности целевого объекта для построения локальной линейной регрессии для интерполяции или прогнозирования. В моделях ГВР предполагается, что масштаб окрестности для каждой независимой переменной одинаковый - в МГВР - нет. В МГВР допускается масштабирование анализа для различных независимый переменных. МГВР применима для больших наборов данных, где несколько сотен объектов, и наборов данных, в которых зависимая переменная демонстрирует пространственную неоднородность. Для моделирования пространственных отношений в наборах данных меньшего размера лучше использовать другие инструменты. Сейчас инструмент Мультимасштабная географически взвешенная регрессия (МГВР) допускает использование только зависимых переменных с непрерывным типом данных. Не запускайте инструмента с данными количеств или с бинарными данными. Это может привести к смещению модели и бессмысленным результатам.
В основном в данной статье сравнивается МГВР с другими моделями регрессии. Рекомендуем изучить основы регрессии по Методу наименьших квадратов (МНК) и познакомиться с понятиями окрестностей, схемы весов и проверок ГВР перед тем, как продолжать.
Более подробно о регрессии МНК
Выбор модели регрессии
МНК, ГВР и МГВР - линейные модели регрессии, но они оперируют разными пространственными масштабами и используют разные допущения о пространственной неоднородности (стационарности отношений в пределах области изучения) в наборе данных. МНК - глобальная модель регрессии. Она предполагает, что процессы генерации данных постоянны в пространстве, поэтому единый коэффициент может учитывать отношения между зависимой и каждой независимой переменной везде. ГВР - это локальная модель, в которой более мягкие представления о пространственной стационарности, соответственно коэффициенты могут меняться в пространстве. Тем не менее, ГВР предполагает, что все локальные отношения находятся в едином пространственном масштабе, то есть для всех независимых переменных используется одна и та же окрестность. Если одна независимая переменная использует 20 соседей для вычислений, значит и все остальные независимые переменные тоже должны использовать 20 соседей.
А МГВР не только допускает варьирование коэффициентов в пространстве анализа, но так же и различный масштаб окрестности для разных независимых переменных. Это выполняется путем использования окрестностей разного размера для каждой независимой переменной, что позволяет учесть разный масштаб пространственных отношений между каждой независимой и зависимой переменной. В свою очередь, это дает возможность комбинировать независимые переменные, оперирующие в относительно больших пространственных масштабах, такие как температура и атмосферное давление с переменными небольших масштабов, например, численность населения или средний доход.
МГВР более точно оценивает локальные коэффициенты и выдает меньше ошибок, связанных с мультиколлинеарностью, чем ГВР. Тем не менее, время обработки для МГВР может быть значительно больше, чем ГВР, и при увеличении размера набора данных время также увеличивается, в особенности для наборов данных больше 10000 точек.
При выборе типа модели, применимой для ваших данных, ответьте на следующие вопросы:
- Должна ли моя модель запускаться на локальном или глобальном уровне.
- Если вас интересует локальная модель, используйте ГВР или МГВР. Если же нет, используйте МНК или другую модель, например Классификация на основе леса и регрессия.
- Будут ли независимые переменные в моей модели оперировать разными пространственными масштабами?
- Если вы предполагаете, что независимые переменные могут оперировать разными пространственными масштабами, и вы хотите учесть в модели эти разные масштабы, примените МГВР.
- Насколько велик мой набор данных? Насколько долго я готова ждать результатов?
- Если у вас большой набор данных и вы запускаете инструмент МГВР, вы должны быть готовы к продолжительному времени работы инструмента. При использовании обычного оборудования начала 2020-х годов (16 логических процессоров и 32 Гб памяти) и стандартных параметров для наборов данных размером более 10000 точек, время обработки скорее всего составит несколько часов. Для 50000 точек время обработки может занять несколько дней. Для 100000, скорее всего, будет ошибка использования памяти.
Если вы все еще не уверены, какую локальную модель использовать для ваших данных, ГВР или МГВР, начните с МГВР. Запуск МГВР также подразумевает и ГВР, при определенных настройках. В сообщениях геообработки вы можете найти проверки ГВР и сравнить их с проверками МГВР. Или же вы можете запустить несколько инструментов (МНК, ГВР и МГВР) и использовать значения критерия AIC в сообщениях геообработки для сравнения моделей и выбора лучшей. Если вы запускаете несколько инструментов, масштабируйте все модели или оставьте все модели немасштабированными, чтобы результаты были сопоставимы.
Возможное применение
МГВР можно применять для множества различных анализов и ответов на вопросы, в частности, такие:
- Как различные характеристики, такие как количество комнат, год постройки, площадь участка и так далее, влияют на цену дома? Существенно ли различаются отношения в разных сообществах?
- Как распределение PM2.5 связанно с экономическими переменными, такими как доходы домохозяйств в регионе, число машин на домохозяйство или процент валового внутреннего продукта, приходящегося на сельское хозяйство?
- В точном земледелии влияют ли типы почв на урожайность сельскохозяйственных культур в том же пространственном масштабе, что и метеорологические переменные, такие как температура, влажность и осадки?
Производительность и контрольные показатели
Множество факторов влияют на время выполнения МГВР. Основной фактор - число объектов. С ростом числа объектов время выполнения возрастает в кубе. Размер окрестности и число независимых переменных также влияет на время выполнения МГВР, так как требует больше вычислений для каждой локальной модели. Для выполнения вычислений максимально быстро, МГВР задействует параллельную обработку и использует половину доступных ядер (логических процессоров) компьютера по умолчанию. Вы можете улучшить производительность, увеличив число ядер в параметре среды Фактор параллельной обработки.
Входные данные инструмента
Есть разные методы указания пространственного масштаба для независимых переменных.
Выбор окрестности (ширина полосы)
Ключевое преимущество метода МГВР - возможность использовать разные окрестности (ширину полосы) для каждой независимой переменной в уравнении линейной регрессии. Окрестность для независимой переменной в целевом местоположении включает все местоположения, которые участвуют в оценке коэффициента незакисимой переменной в локальной модели регрессии. Каждая окрестность определяется формой и экстентом.
Существует три опции для параметра Метод выбора окрестности, которые будут использованы для оценки оптимального пространственного масштаба для каждой из независимых переменных:
- Золотой поиск - определяет число соседей или диапазон расстояний для каждой независимой переменной с использованием алгоритма Золотого поиска. Этот метод тестирует несоклько комбинаций значений для каждой независимой переменной между указанным минимум и максимумом. Процедура повторяется и использует результаты предыдущих вариантов для выбора каждой новой комбинации для тестирования. Итоговые выбранные значения будут приводить к получению наименьших значений AIC. Для числа соседей минимальное и максимальное значения указываются в параметрах Минимальное число соседей и Максимальное число соседей. Для опции диапазона расстояний минимальное и максимальное значения указываются с использованием параметров Минимальное расстояние поиска и Максимальное расстояние поиска. Минимальные и максимальные значения используются всеми независимыми переменными, но предполагаемое число соседей или диапазон растсояния могут быть разными для каждой независимой переменной (если только две или более переменных не имеют одинакового пространственного масштаба). Данная опция требует больше времени для вычисления, в особенности для больших или высокоразмерных наборов данных.
- Интервал вручную - определяет число соседей или диапазон расстояний для каждой независимой переменной путем увеличения числа соседей или диапазона расстояний начиная от минимального значения. Для числа соседей расчет числа методом начинается от значения, определенного в параметре Минимальное число соседей. Затем число соседей увеличивается на значение, определенное в параметре Инкремент числа соседей. Инкремент повторяется определенное число раз, указанное в параметре Число инкрементов. Для опции диапазона расстояний, метод использует параметры Минимальное расстояние поиска, Инкремент расстояния поиска и Число инкрементов. Число соседей или диапазон расстояний, используемые каждой независимой переменной будут тестируемыми значениями, но эти значения могут быть разными для каждой независимой переменной. Этот метод быстрее золотого поиска, и часто оценивает сравнимые окрестности.
- Определен пользователем — число соседей или диапазон расстояний, используемые для всех независимых переменных. Значение указывается в параметре Число соседей или Диапазон расстояний. Эта опция предполагает полное управление, если вы знаете оптимальные значения.
По умолчанию зависимые параметры в каждом методе выбора окрестности применимы ко всем независимым переменным. Но настраиваемые параметры выбора окрестности можно применить только к определенным независимым переменным, используя соответствующие замещающие параметры для типа окрестности и метода выбора: Число соседей для золотого поиска, Число соседей для интервалов вручную, Заданное пользователем число соседей, Расстояние поиска для золотого поиска, Расстояние поиска для интервалов вручную или Заданное пользователем расстояние поиска. Чтобы использовать настраиваемую окрестность для конкретных независимых переменных, укажите независимые переменные в первом столбце соответствующего замещающего параметра, и укажите настраиваемые опции для окрестности в других столбцах. Столбцы названы теми же именами, что и параметры замещения; например, если вы используете интервалы вручную для диапазона расстояний, столбец Инкремент расстояния поиска будет содержать настроенные значения для параметра Инкремент расстояния поиска. В диалоговом окне инструмента настроенные параметры окрестности отображаются в ниспадающем меню Настраиваемые опции окрестности
Схема присвоения локальных весов
МГВР использует географически взвешенную функцию (ядро) для соседних объектов в каждой локальной модели, таким образом соседи, расположенные ближе к целевому объекту, имеют большее влияние на результат локальной модели. Инструмент Мультимасштабная географически взвешенная регрессия предлагает использовать две опции ядер в параметре Схема присвоения локальных весов, Гаусса и Биквадрат. Более подробно о работе географических весах с ядрами см. в разделе как работает Географически взвешенная регрессия. В МГВР взвешенная ширина полосы варьирует в независимых переменных.
Выбор данных и коэффициентов
По умолчанию все значения независимых и зависимой переменной масштабированы, так, чтобы среднее значение было равно нулю, а среднеквадратическое отклонение - 1 (также называется Стандартизация z-оценки. Оценки коэффициентов масштабированных значений данных интерпретируются в среднеквадратических отклонениях; например, коэффициент 1.2 означает, что увеличение на одно среднеквадратическое отклонение в независимой переменной соответствует увеличению на 1.2 среднеквадратических отклонения в зависимой переменной. Так как все коэффициент используют общие единицы измерения, значения можно сравнивать напрямую, и видеть, какая из независимых переменных обладает большим влиянием на модель. Общая рекомендация - масштабировать переменные, но в особенности важно масштабирование, если диапазон значений в переменных существенно варьируется. Вы можете выбрать - не масштабировать данные, сняв отметку с параметра Масштабировать данные.
В большинстве линейных моделей регрессии, таких как МНК или ГВР, коэффициенты не меняются в линейном масштабировании. Это означает. что если вы масштабируете исходные данные, подгоняете модель, затем обратно пересчитываете результат в исходные единицы - результаты будут такими же, как если бы вы не масштабировали данные. В МГВР масштабирование и обратный пересчет не приведут к построению той же модели, что и на исходных данных. Это потому, что обратная подгонка - итеративный процесс, где результат каждого шага зависит от результатов предыдущих шагов. Использование различных начальных масштабов влияет на траекторию тестируемых значений и приводит к созданию разных моделей МГВР. Масштабированные результаты обычно более точные, так как масштабирование выравнивает дисперсию переменных и итерации процесса сходятся быстрее и ведут к более точным значениям, если каждая переменная вносит равный вклад в общую дисперсию данных. Если независимые переменные имеют разную вариабельность, переменные с большей вариабельностью сильнее влияют на каждый шаг итеративной оценки. В большинстве случаев это отрицательно влияет на результирующую ширину полосы и коэффициенты модели.
Для более простой интерпретации масштабированных результатов, все коэффициенты в выходных данных инструмента приведены в масштабированном значении, и не в масштабированном (исходном) измерении данных. Выходные данные содержат дополнительные поля выходных объектов (также добавленные как слои в выходном составном слое) и дополнительные растры в директории Выходная рабочая область растровых коэффициентов. При прогнозировании новых местоположений с использованием параметров Прогнозируемые местоположения и Выходные прогнозированные объекты, все прогнозируемые значения не масштабированы. См. Выходные данные инструмента для дополнительной информации о выходных данных.
Выходные данные инструмента
Инструмент создает разные выходные данные, включая составные слои, с различными полями с сообщениями выходных объектов, а также диаграммы. Дополнительные выходные данные включают класс объектов прогнозируемых значений в новых местоположениях, таблицу окрестностей и растровые поверхности для каждого коэффициента.
Составные слои и символы
Выходные символы слоя по умолчанию визуализируют нормированные невязки локальной линейной модели регрессии с использованием цветовой схемы классификации. Изучение закономерностей в невязках позволяет понять, насколько модель хорошо настроена. Распределение невязок в корректной модели регрессии будут соответствовать нормальному распределению и оно должно быть пространственно случайным (не образовывать кластеры). Можно запустить инструмент Пространственная автокорреляция (Индекс Морана I) для невязок регрессии, чтобы убедиться, что они пространственно случайны. Статистически значимая кластеризация высоких и/или низких значений невязок указывает на то, что модель МГВР не оптимальна.
Результаты всех коэффициентов каждой независимой переменной представлены отдельными слоями составного слоя. Каждый векторный слой представлен сходящейся цветовой схемой, центрированной на нулевом значении. Это позволяет вам использовать цвет для понимания того, какая переменная связана положительными или отрицательными отношениями с зависимой переменной. Значимость коэффициентов каждой независимой переменной также отображена в векторном слое. Для точек гало зеленого цвета идентифицирует статистически значимые отношений с вероятностью 95 процентов, а гало серого цвета указывает на незначимые отношения. Для полигонов значимые отношения указываются с помощью сетчатых текстур. Изучите слои коэффициентов и слои значимости для лучшего понимания пространственной вариабельности в независимых переменных. Вы можете использовать свое понимание пространственной вариабельности для обоснования правил. Глобальные правила могут подойти, если переменные глобально статистически значимы и демонстрируют незначительные региональные различия, но локальные правила лучше подходят, если переменные не являются глобально значимыми, но вместо этого демонстрируют положительные отношения в одних местоположениях и отрицательные - в других.
Сообщения и проверки
Сообщения проводят информацию о модели МГВР и ее производительности. Сообщения имеют несколько разделов.
Суммарная статистика для оценок коэффициентов
В разделе Суммарная статистика для оценок коэффициентов приведены значения среднего, среднеквадратического отклонения, минимум, медиана и максимум оценок коэффициентов в изучаемой области. Среднее значение каждого коэффициента отражает связь между независимой и зависимой переменной. Среднеквадратическое отклонение указывает на пространственную вариабельность каждой независимой переменной. Невысокие значения среднеквадратического отклонения указывают на хорошо настроенную модель МНК. Если отмечен параметр Масштабировать данные, вы можете сравнивать значения всех независимых переменных. Если параметр Масштабировать данные не отмечен, значения коэффициентов независимых переменных нельзя сравнить напрямую, так как единицы измерения могут отличаться.
Проверки модели
В разделе Проверки модели содержится таблица, показывающая несколько проверок модели для ГВР и МГВР, включая R2, Выровненный R2, AIC, дисперсию невязок и число эффективных степеней свободы. Для дополнительной информации о проверках модели см. Как работает инструмент Географически взвешенная регрессия.
Примечание:
В некоторых случаях построение модели ГВР для сравнения может не получиться. Тогда показаны только проверки МГВР
Вы можете использовать R2 и выровненный R2 для оценки степени соответствия модели данным. Чем выше R2 и скорректированный R2, тем лучше модель соответствует данным. Оценка сложности модели проводится по числу независимых переменных и проверке числа эффективных степеней свободы. Простые модели имеют большое значение эффективных степеней свободы и меньше параметров. Если в модели слишком много параметров, запуск ее может нести риск излишней подгонки данных. Проверка критериев AIC позволяет оценить и степень подгонки и сложность модели. Инструмента Мультимасштабная географически взвешенная регрессия выбирает модель с наименьшим значением AIC.
Сводка независимых переменных и окрестностей
В разделе Сводка независимых переменных и окрестностей отображаются оценки окрестностей и уровней значимости для каждой независимой переменной. Если окрестность определяется числом соседей, оптимальное число соседей отображается как число, а также в виде процента от общего числа входных объектов. Если окрестность определяется шириной полосы, оптимальное расстояние отображается вместе с процентом от диагонали экстента входных объектов. Процент от числа объектов или величины экстента удобно использовать для оценки пространственного масштаба независимых переменных; например, если независимая переменная использует 75 процентов всех объектов в качестве соседей, такая локальная модель регрессии ближе к глобальной, чем к локальной. А если другая локальная переменная использует только 5 процентов входных объектов как соседей, эта модель значительно ближе к локальной. Для всех типов окрестностей, число и процент статистически значимых локальных моделей с уровнем достоверности в 95 процентов отображается для каждой независимой переменной.
История поиска оптимальной ширины полосы
В разделе История поиска оптимальной ширины полосы отображается история поиска оптимальных расстояний вместе со значениями AIC для каждого из тестируемых значений. Инструмент начинает поиск оптимальной ширины полосы для каждой независимой переменной с того, что назначает каждой переменной одно и то же значение - оптимальную ширину полосы для ГВР. Далее инструмент настраивает ширину полосы каждой переменной в каждой итерации и оценивает новое значение AIC. В процессе итераций значение AIC снижается до постоянного уровня, или точки, с которой идет повышение, что определяет конец итераций. Опция Определен пользователем обычно требует меньше итераций, а Золотой поиск - больше.
Суммарная статистика ширины полосы
В разделе Суммарная статистика ширины полосы показаны значения, используемые для оценки того, является ли каждая независимая переменная значимой в каждой локальной модели. Эти показатели статистики включают размер оптимальной окрестности (число соседей или ширина полосы) МГВР, эффективное число параметров, скорректированный уровень значимости (альфа) и скорректированное критическое значение псевдо-t-статистики. Эти значения используются для создания полей, связанных со статистической значимостью каждой независимой переменной в выходных объектах. Скорректированное значение альфа вычисляется делением уровня достоверности (0.05) на эффективное число параметров; это определяет групповую вероятность ошибки (FWER) значимости независимых переменных. Скорректированное значение альфа используется как уровень значимости в двустороннем t-критерии с числом эффективных степеней свободы.
Выходные объекты
Инструмент Мультимасштабная географически взвешенная регрессия создает класс объектов, который включает результаты локальных проверок для каждого объекта. Эти проверки включают невязки регрессии, нормированные невязки, прогнозированные значения зависимой переменной, отрезок на координатной оси, коэффициенты независимых переменных, стандартные ошибки коэффициентов, псевдо-t-статистики коэффициентов, значимость коэффициентов, влияние, расстояние Кука, локальный R2 и число обусловленности. Для дополнительной информации об этих проверках см. Как работает инструмент Географически взвешенная регрессия.
Диаграммы
В панель Содержание добавляются следующие диаграммы:
- Отношения между переменными — матрица точечных диаграмм с показом до 19 переменных, с демонстрацией точечных диаграмм и корреляций между каждой комбинацией независимой переменной. Сильно выраженная корреляция между парой говорит о мультиколлинеарности.
- Распределение нормированных невязок - гистограмма распределения стандартизированных невязок. Нормированные невязки должны соответствовать нормальному распределению со средним значением - ноль, а среднеквадратическим отклонением - 1.
- Нормированные невязки и Прогнозируемые значения — точечная диаграмма сравнения нормированных невязок в сравнении с соответствующими прогнозируемыми значениями. Диаграмма должна свидетельствовать о случайном распределении и не выявлять трендов или закономерностей.
Дополнительные выходные данные
Следующие дополнительные опции можно указать в ниспадающих меню Опции прогнозирования и Дополнительные опции.
- Значение параметра Выходные прогнозированные объекты - класс объектов с прогнозируемыми значениями зависимой переменной в местоположениях, указанных в параметре Прогнозируемые местоположения.
- В параметре Выходная таблица окрестности указывается таблица для сохранения информации из разделов сообщений Суммарная статистика для оценок коэффициентов и Сводка независимых переменных и окрестностей.
- В параметре Рабочая область растровых коэффициентов указывается рабочая область (директория или база геоданных) куда сохраняются растры коэффициентов. Эти растровые поверхности коэффициентов помогают понять пространсвтенную вариабельность коэффициентов.
Мультиколлинеарность
Мультиколлинеарность возникает, когда две или более переменных демонстрируют сильно выраженную корреляцию в модели регрессии. Она может возникнуть в моделях МНК, ОЛР, ГВР и МГВР. Мультиколлинеарность может оказать негативное влияние на оценки коэффициентов и оптимальные окрестности, так как если независимые переменные коррелируют, их информация дублируется, и модель регрессии не может выявить влияние каждой из этих переменных. В умеренных случаях вычисленные оценки коэффициентов могут быть смещенными и с высокой степенью неопределенности. В экстремальных случаях построение модели может не получиться. В следующем примере показана матрица точечных диаграмм из трех переменных, которые высоко коррелируют друг с другом, и модель регрессии, где они используются их в качестве независимых переменных, обнаружит наличие мультиколлинеарности.
Идентификация и предотвращение мультиколлинеарности в МГВР
В МГВР мультиколлинеарность может возникнуть в нескольких ситуациях:
- Одна из независимых переменных пространственно кластеризована.
Чтобы предотвратить эту ситуацию, нанесите на карту каждую из независимых переменных и идентифицируйте переменные с небольшим количеством возможных значений или где идентичные переменные показывают пространственные кластеры. Если вы наблюдаете такие случаи в переменных, подумайте о том, чтобы удалить их из модели или использовать возможность увеличения диапазона значений. Переменную с информацией о числе комнат, например, лучше представить как число комнат на квадратный фут.
- Две или более независимых переменных демонстрируют сильно выраженную корреляцию глобальном масштабе.
Запустите глобальную модель, используя Обобщенную линейную регрессию и проверьте значение Фактора, увеличивающего дисперсию (VIF) для каждой независимой переменной. Если значения фактора, увеличивающего дисперсию высокие, 7.5, и выше, глобальная мультиколлинеарность может не допустить запуск МГВР. В этом случае можно сделать вывод об избыточных переменных, и рассмотреть возможность исключения их из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариабельности значений.
- Указанная окрестность очень мала.
Даже если два, описанных выше сценария не обнаружились в глобальном масштабе, они могут проявится в локальной модели. Для проверки изучите локальное число обусловленности в выходном классе объектов. Высокое значение числа обусловленности указывает на нестабильность результатов вследствие локальной мультиколлинеарности. Если это произошло, перезапустите модель, используя большее число соседей или диапазон расстояния. В общем случае, не стоит доверять результатам для объектов с числом обусловленности более 30, или равным 0. Для шейп-файлов, нулевые значения обозначаются равными 1.7976931348623158e+308. Число обусловленности масштабируется с поправкой на количество независимых переменных в модели, что позволяет вам напрямую сравнивать числа обусловленности между моделям с разным количеством независимых переменных.
Такая проверка поможет выявить мультиколлинеарность, но не поможет решить проблему.
Оценки коэффициентов и ширины полосы
Коэффициенты независимых переменных и ширина полосы окрестности оцениваются с помощью процедуры под названием обратная подгонка (Breiman et al. 1985). Исходно разработанная для оценки параметров обобщенных аддитивных моделей, процедура проходит через независимые переменные, одну за другой, и использует функцию сглаживания для калибровки коэффициентов, сохраняя при этом все остальные независимые переменные постоянными. Этот процесс повторяется для всех независимых переменных, пока значения коэффициентов не стабилизируются и не будут меняться после успешной итерации.
Применяемая к МГВР (Fotheringham et al. 2017) функция сглаживания представляет собой одномерную модель ГВР, которая строит регрессию на основании ранее рассчитанного прогноза скорректированных невязок по одной независимой переменной (рассматривая все остальные независимые переменные как константы). Эта модель ГВР использует тот же метод выбора окрестности (Золотой поиск, интервал вручную или определенный пользователем) для оценки пространственного масштаба независимой переменной. См. раздел Дополнительные ресурсы для подробного описания процедуры.
Алгоритм обратной подгонки должен начинаться с начальных значений коэффициентов. Эти начальные значения оцениваются моделью ГВР для всех независимых переменных. Если эта модель не запускается из-за мультиколлинеарности, применяется модель МНК. Если не удалось выполнить схождение после 25 итераций, будут использованы значения коэффициентов последней итерации.
Дополнительные ресурсы
Для получения более подробной информации обратитесь к следующим ресурсам:
- Breiman, L., and J. H. Friedman. 1985. "Estimating optimal transformations for multiple regression and correlations (with discussion)." Journal of the American Statistical Association 80, (391): 580–619. https://doi.org/10.2307/2288473. JSTOR 2288473.
- Brunsdon C.A., S. Fotheringham, and M. E. Charlton. 1996. "Geographically weighted regression: A method for exploring spatial nonstationarity." Geographical Analysis 28: 281–298.
- Fotheringham, A. S., W. Yang, and W. Kang. 2017. "Multiscale geographically weighted regression (MGWR)." Annals of the American Association of Geographers 107: 1247–265. https://doi.org/10.1080/24694452.2017.1352480
- Oshan, T. M., З. Li, W. Kang, L. J. Wolf, and A. S. Fotheringham. 2019. "mgwr: A Python implementation of multiscale geographically weighted regression for investigating process spatial heterogeneity and scale." ISPRS International Journal of Geo-Information 8: 269.
- Yu, H., A. S. Fotheringham, Z. Li, T. Oshan, W. Kang, and L. J. Wolf. 2020. "Inference in multiscale geographically weighted regression." Geographical Analysis 52: 87–106.