Инструмент выполняет Географически взвешенную регрессию, локальную форму линейной регрессии, используемую для моделирования пространственных отношений. Метод ГВР создает локальную модель переменной или процесса, которые вы прогнозируете или изучаете, применяя уравнение регрессии к каждому пространственному объекту в наборе данных. Инструмент ГВР создает отдельные уравнения путем включения зависимой и независимых переменных объектов, попадающих в пределы окрестности каждого целевого объекта. Форма и экстент каждой окрестности анализируется на основании входных параметров Тип окрестности и Метод выбора окрестности с одним ограничением: если число соседних объектов превысит 1000, то в каждое локальное уравнение будет включена только ближайшие 1000 объектов.
Этот инструмент лучше всего использовать для наборов данных, содержащих несколько сотен объектов. Инструмент не подходит для небольших наборов данных. Инструмент не работает с мультиточечными данными.
В параметре Входные объекты укажите поле, представляющее явление, которое вы моделируете (Зависимую переменную), а также укажите одно или несколько полей, представляющих Независимые переменные. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском инструмента ГВР.
Инструмент ГВР производит множество различных результатов. Суммарная информация по модели Географически взвешенной регрессии доступна в сообщении в нижней части панели Геообработка в процессе выполнения инструмента. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку или разверните раздел сообщений в панели Геообработка. Вы можете получить доступ к сообщениям инструмента ГВР, который запускался ранее с помощью Истории геообработки.
Инструмент ГВР также создает Выходные объекты и добавляет поля со значениями локальных проверок. Выходной класс объектов и связанные с ним диаграммы автоматически добавляется в таблицу содержания со схемой отображения горячих/холодных точек, применимой к невязкам модели. Полное пояснение по каждому результату и диаграмме см. в разделе Как работает инструмент Географически взвешенная регрессия.Доступными входными данными инструмента являются точки и полигоны. Для полигонов все расстояния и соседние объекты (окрестности) определяются на основании расстояний между центроидами полигонов (точками) Тем не менее, особенно в случае больших, вытянутых или составных полигонов, одна точка может не корректно представлять весь полигон. В этих случаях окрестности и расстояния между полигонами могут не соответствовать реальности или вводить в заблуждение. Например, два смежных полигона с общей границей могут не считаться соседями, так как их центроиды расположены далеко друг от друга. Чтобы увидеть центроиды, которые будут использованы инструментом, используйте инструмент Объекты в точки с отключенным параметром Внутри, чтобы конвертировать полигоны в точки центроидов. Так же вы можете использовать инструмент Проводник окрестности для визуализации центроидов полигонов или точек в окрестности.
Обычно не рекомендуется выполнять Географически взвешенную регрессию для линий, так как центроиды не очень хорошо представляют линейные объекты. Но если вы хотите использовать линии в инструменте, используйте инструмент Объекты в точки для конвертации линий в точки центроидов и используйте центроиды в инструменте. Результаты потом можно присоединить к исходным линиям.
Значение параметра Тип модели зависит от моделируемых данных. Для получения точных результатов регрессионного анализа корректность модели очень важна.
Рекомендуется использовать спроецированные данные. Это особенно важно, если расстояние является компонентом анализа – как это происходит в случае Географически взвешенной регрессии, если выбран Диапазон расстояний в параметре Тип окрестности. Настоятельно рекомендуется, чтобы данные находились в Системе координат проекции, а не в Географической системе координат.
Некоторые из вычислений используют преимущества нескольких CPU для увеличения производительности, и будут автоматически использовать до 8 потоков/процессоров для обработки.
К общепринятым рекомендациям относится глобальное изучение данных с использованием инструмента Обобщенная линейная регрессия перед локальным исследованием с помощью инструмента.
Параметры Зависимая переменная и Независимые переменные должны быть заданы числовыми полями, содержащими диапазоны значений. Эти значения должны различаться как на глобальном, так и на локальном уровне. Поэтому не стоит использовать "фиктивные» независимые переменные, чтобы представить различные пространственные режимы в модели Географически взвешенной регрессии (например, переписным районам вне городского ядра назначают значения 1, в то время как всем другим назначают значение 0). Поскольку ГВР допускает изменение коэффициентов независимых переменных, эти независимые переменные пространственного режима являются ненужными, а их включение создаст проблемы с локальной мультиколлинеарностью.
В глобальных регрессионных моделях, таких как (Обобщенная линейная регрессия), результаты ненадежны, когда у двух или более переменных наблюдается мультиколлинеарность (когда 2 или более переменных избыточны или вместе "рассказывают одну и ту же историю). Инструмент ГВР строит уравнение локальной регрессии для каждого объекта в наборе данных. Когда значения для конкретной независимой переменной кластеризованы в пространстве, вы вероятнее всего будете иметь проблемы с локальной мультиколлинеарностью. Поле числа обусловленности (COND) в выходном классе объектов указывает на нестабильность результатов вследствие локальной мультиколлинеарности. В общем случае, не стоит доверять результатам для объектов с числом обусловленности более 30, равным 0 или, для шейп-файлов, равным 1.7976931348623158e+308. Номер условия масштабируется с поправкой на количество независимых переменных в модели. Это позволяет проводить прямое сравнение числа условий между моделями, использующими различные числа независимых переменных.
При включении номинальных или категорийных данных в модели Географически взвешенной регрессии необходимо быть очень внимательным. Если наблюдается кластеризация в пространстве по категориям, присутствует высокий риск столкновения с локальной мультиколлинеарностью. Число обусловленности, включенное в результаты Географически взвешенной регрессии, указывает, когда локальная коллинеарность – проблема (число обусловленности меньше чем 0, больше чем 30, или Null). Результаты в присутствии локальной мультиколлинеарности непостоянны.
Чтобы лучше понять региональное изменение среди коэффициентов ваших независимых переменных, исследуйте дополнительные растровые коэффициенты поверхности, созданные инструментом ГВР. Эти растровые поверхности создаются в Рабочей области растровых коэффициентов, если вы указываете ее под Дополнительные опции. Для полигональных данных можно использовать градуированный цвет или отображение от холодного-к-горячему для каждого поля с коэффициентами в Выходные объекты, чтобы изучить изменения в вашей области исследования.
Вы можете использовать ГВР для прогнозирования, указав Прогнозируемые местоположения (часто это класс объектов, который совпадает с параметром Входные объекты), соответствующие независимым переменным и задав Выходные объекты прогнозирования. Если поля Независимые переменные для сопоставления из Входных объектов соответствует Полям в прогнозируемых местоположениях, они будут заполнены автоматически. Если нет – укажите корректные поля.
Регрессионная модель – определена некорректно, если отсутствует ключевая независимая переменная. Статистически значимая пространственная автокорреляция невязок регрессии и/или неожиданное пространственное изменение среди коэффициентов одной или более независимых переменных предполагают, что ваша модель определена некорректно. Вы должны приложить все усилия (используя анализ невязок Обобщенной линейной регрессии и коэффициентов вариационного анализа Географически взвешенной регрессии), чтобы обнаружить эти ключевые недостающие переменные и включить их в модель.
Решите, может ли независимая переменная быть нестационарной. Например, предположите, что вы моделируете плотность определенного вида растений, как функцию нескольких переменных, включая ASPECT. Если вы находите, что коэффициент для переменной ASPECT изменяется в области исследования, вы, вероятно, видите доказательства недостатка ключевой независимой переменной (возможно, распространенность конкурирующей растительности, например). Вы должны приложить все усилия, чтобы включать все ключевые независимые переменные в вашу регрессионную модель.
Когда результатом вычисления будет бесконечность или неопределенным, результат для файлов, которые не являются шейп-файлами, будет Пустым; для шейп-файлов результат будет-DBL_MAX =-1.7976931348623158e+308.
Внимание:
Шейп-файлы не могут хранить пустые значения. Инструменты или другие процедуры, в результате которых создаются шейп-файлы из входных файлов, которые не являются шейп-файлами, могут записать пустые значения как ноль, или как некоторое очень маленькое отрицательное число (-DBL_MAX =-1.7976931348623158e+308). Это может привести к неожиданным результатам. Дополнительную информацию см. в разделе Замечания, связанные с геообработкой для выходных данных шейп-файла.
Существует три опции для параметра Метод выбора окрестности. Если вы выбираете Золотой поиск, инструмент найдет оптимальные значения для параметра Диапазон расстояний или Число соседей, используя метод Поиска золотого сечения. Опция Интервал вручную тестирует соседей, используя пошаговый прирост расстояния между указанными диапазонами. В любом случае используется размер окрестности, который минимизирует значение Информационного критерия Акаике (AIC). Проблемы локальной мультиколлинеарности, тем не менее, препятствуют определению оптимальной ширины диапазона или числа соседей. Если вы получили ошибку или столкнулись с серьезными проблемами при разработке модели, можно попробовать указать определенное расстояние или число соседей с помощью опции Определено пользователем. Затем проверьте все числа обусловленности в выходном классе объектов, чтобы увидеть, какие значения связаны с проблемами локальной мультиколлинеарности.
Серьезные проблемы в схеме модели или ошибки выявления локальных уравнений, не содержащих в своих описаниях достаточное количество соседей, зачастую указывают на проблемы с глобальной или локальной мультиколлинеарностью. Чтобы обнаружить, где встретилась проблема, запустите глобальную модель, используя Обобщенную линейную регрессию, и проверьте значение фактора, увеличивающего дисперсию, для каждой независимой переменной. Если некоторые из значений Фактора, увеличивающего дисперсию, – большие (выше 7,5, например), глобальная мультиколлинеарность не позволяет работать методу Географически взвешенная регрессия. Однако вероятнее всего, проблемой является локальная мультиколлинеарность. Попытайтесь создать тематическую карту для каждой независимой переменной. Если карта раскрывает пространственную кластеризацию идентичных значений, следует рассмотреть вариант исключения их из модели или комбинирования тех переменных с другими независимыми переменными для увеличения вариации значений. Если, например, вы моделируете значения для дома и имеете переменные для спален и ванных комнат отдельно, вы, возможно, захотите объединить их, чтобы увеличить вариацию значений или представить их как ванная комната/спальня. При конструировании моделей Географически взвешенной регрессии, избегайте использования фиктивных значений, пространственной кластеризации категорий или номинальных переменных, или переменных с очень малым числом возможных значений.
Географически взвешенная регрессия - это линейная модель, к которой предъявляются те же требования, что и к Обобщенной линейной регрессии. Просмотрите подобный разбор показателей проверки в разделе Как работает Географически взвешенная регрессия, чтобы убедиться, что ваша модель Географически взвешенной регрессии определена корректно. Раздел Плохо работает модель регрессии в статье Основы регрессионного анализа также содержит информацию, которая поможет вам повысить точность модели.