Как работает инструмент Обобщенная линейная регрессия

Регрессионный анализ – это, пожалуй, наиболее часто используемый метод статистики в общественных науках. Регрессия используется для оценки отношений между двумя или более атрибутами объектов. Определение и измерение отношения позволяют вам лучше понять, что происходит на месте, предсказать, где что-то случится, или начать проверять причины, почему события случаются в тех местах, где это происходит. Обобщенная линейная регрессия строит модель переменной или процесса, который вам необходимо понять или спрогнозировать; модель можно использовать для измерения и оценки отношений между объектами.

Примечание:

Это новый инструмент в ArcGIS Pro 2.3, который включает функциональность Метода наименьших квадратов (МНК). В инструмент добавлены дополнительные типы моделей Количественная (Пуассона) и Бинарная (логистическая), которые позволяет использовать инструмент для решения целого ряда задач.

Возможное применение

Обобщенная линейная регрессия используется для решения множества вопросов, например:

  • Какие демографические характеристики влияют на высокую степень использования общественного транспорта?
  • Имеется ли положительная взаимосвязь между вандализмом и взломами?
  • Какие переменные эффективно предсказывают количество звонков в службу быстрого реагирования? С учетом тенденции, какие ресурсы необходимы для реагирования на экстренные вызовы?
  • Какие факторы обуславливают низкий уровень рождаемости

Входные данные

Для запуска инструмента Обобщенная линейная регрессия укажите параметр Входные объекты, поле, представляющее Зависимую переменную и одно или несколько полей, представляющих Независимые переменные, или, дополнительно, Объекты расстояния. Поля должны быть числовыми и содержать диапазоны значений. Объекты с пустыми значениями в зависимой или независимых переменных исключаются из анализа; но можно использовать инструмент Заполнить пустые значения чтобы сделать набор данных полным перед запуском инструмента Обобщенная линейная регрессия. Далее вы должны выбрать Тип модели, базируясь на анализируемых данных. Очень важно подобрать корректную модель, соответствующую данным. Ниже приведены описания типов моделей и принципы подбора модели в соответствии с данными.

Тип модели

В Обобщенной линейной регрессии используются три типа моделей регрессии: Непрерывная, Бинарная и Количественная. Эти типы регрессии описаны в справочниках по статистике, как модели Гаусса, Логистическая и Пуассона, соответственно. Тип модели для анализа выбирается на основании измерений, представляющих Зависимую переменную и диапазона значений.

Непрерывная (Гауссова)

Используйте Тип модели Непрерывная (Гауссова), если Зависимая переменная представлена широким диапазоном значений, например измерения температуры воздуха или объемы продаж. В идеале, зависимая переменная должна подчиняться принципу нормального распределения. Вы можете создать гистограмму для зависимой переменной, чтобы проверить соответствие нормальному распределению. Если ваша гистограмма симметрична и напоминает колокол ­ используйте тип модели Гауссова. Большинство значений сгруппированы около средней величины с небольшим числом значений, отстоящих от среднего. Равное число значений на правой и левой стороне кривой свидетельствует о том, что среднее и медианное значения для распределения совпадают). Если Зависимая переменная не соответствует нормальному распределению, рекомендуется переклассифицировать значения для использования в бинарном варианте. Например, если ваша зависимая переменная представляет усредненный уровень дохода, вы можете перекодировать диапазон значений в бинарное представление, где 1 соответствует уровню выше медианного значения для всей страны, а 0 - ниже. Поле непрерывных значений можно переклассифицировать в бинарное поле с помощью функции Переклассифицировать в инструменте Вычислить поле.

Бинарная (Логистическая)

Используйте Тип модели Бинарная (логистическая) если Зависимая переменная представлена двумя возможными значениями, скажем удалось или не удалось или наличие - отсутствие. Поле, содержащее Зависимую переменную должно быть числовым и содержать два уникальных значения – 1 и 0. Результаты будет легче интерпретировать, если вы закодируете интересующее событие, например, успешное выполнение или наличие чего-то как 1, так как регрессия будет моделировать вероятность 1. В ваших данных должна присутствовать вариабельность нуля и единицы. Если вы построите гистограмму Зависимой переменной, она должна отображать только единицу или ноль.

Количественная (Пуассона)

Рекомендуется использовать Тип модели Количественная (Пуассона) если Зависимая переменная содержит дискретные значения, и представляет явление с количественным измерением, скажем число преступлений. Количественные модели также можно использовать для Зависимой переменной, представляющий соотношение, где в знаменателе фиксированное значение, по которому можно нормировать, например объем продаж в месяц или число окнобольных на 10000 населения. Количественная (Пуассона) модель предполагает, что среднее и вариабельность Зависимой переменной равны и значения Зависимой переменной не могут быть отрицательными или содержать десятичные значения.

Объекты расстояния

Хотя Обобщенная линейная регрессия по сути не является пространственным методом, одним из способов усиления влияния пространства в анализе является использование объектов расстояния. Например, если вы моделируете производительность ряда розничных магазинов, переменная, представляющая расстояние до автомагистрали или ближайшего конкурента, может быть критичной для получения точного прогноза. Аналогично, если моделируется качество воздуха, независимая переменная, представляющая расстояние до основного источника загрязнения или до основных дорог, может иметь решающее значение. Объекты расстояния используются для автоматического создания независимых переменных путем вычисления расстояния от предоставленных объектов до Входных объектов. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния до ближайшего Входного объекта. Если входные Независимые объекты расстояния являются полигонами или линиями, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Но для полигонов и линий расстояния рассчитываются по-разному. Более подробно см. Как инструменты близости вычисляют расстояние.

Прогнозирование

Вы можете использовать созданную модель регрессии для выполнения прогнозирования для остальных объектов (как точек, так и полигонов). Для вычисления прогнозируемых значений необходимо, чтобы в каждом Прогнозируемом местоположении были значения для каждой Независимой переменной, а также Независимые объекты расстояния для области интереса. Если имена полей во Входных объектах и Прогнозируемых местоположений не совпадают, предоставляется параметр сопоставления переменных. При сопоставлении независимых переменных поля во Входных объектах и Прогнозируемых местоположениях должны быть одного типа (например поля типа double сопоставляются с double). Любые Независимые объекты расстояния также должны быть сопоставлены.

Выходные данные

Инструмент Обобщенная линейная регрессия производит множество различных результатов. Итоговая информация по модели ОЛР и суммарная статистика доступна в виде сообщений, которые появляются в нижней части панели Геообработка во время выполнения этого инструмента. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку, или разверните раздел сообщений на панели Геообработка. Вы также можете просмотреть сообщения, касающиеся ранее запущенного инструмента Обобщенная линейная регрессия в истории геообработки. Инструмент также создает Выходные объекты, диаграммы, и, дополнительно, Выходные объекты прогнозирования. Выходные объекты и связанные с ним диаграммы автоматически добавляется в панель Содержание со схемой отображения от горячего к холодному, применяемой в моделировании невязок. Показатели проверки и диаграммы зависят от Типа модели Входных объектов, и описаны ниже.

Непрерывная (Гауссова)

Интерпретация сообщений и показателей диагностики

  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и ОЛР является одним из вариантов оценки преимуществ перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР).
  • R2 – R-квадрат показывает, насколько модель соответствует действительности. Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии. Знаменателем при вычислении R2 является сумма квадратов значений зависимых переменных. При добавлении каждой независимой переменной знаменатель модели не будет меняться, однако числитель будет меняться, создавая ошибочное впечатление, что модель близка к действительности. См. параметр Скорректированный R2 ниже.
  • Скорректированный R2 – в свете описанных выше проблем, вычисление значения скорректированного R-2 нормирует числитель и знаменатель по их степеням свободы. При этом компенсируется число переменных в модели, и, следовательно, значение Скорректированный R2 всегда меньше, нежели значение просто R2. Однако при такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. В ГВР эффективное число степеней свободы является функцией от размера окрестности, поэтому корректировка может быть более заметна в глобальной модели, например, ОЛР. По этой причине желательно использовать значения AICc при сравнении моделей.
  • Соединенная F-статистика и Соединенная статистика Вальда – показатели Соединенная F-статистика и Соединенная статистика Вальда отвечают за общую статистическую значимость модели. Соединенная F-статистика является надежным только в том случае, когда Статистика Кенкера (BP) (см. ниже) не является статистически значимым. В противном случае желательно проанализировать Соединенную статистику Вальда, чтобы определить общую значимость модели. Нулевая гипотеза для обоих критериев подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.
  • Статистика Кенкера (BP) (стьюдентизированная Кенкером статистика Бреуша-Пагана) – это тест на определение того, имеют ли независимые переменные в модели постоянную связь с зависимой переменной как в географическом пространстве, так и в пространстве данных. Если модель согласована в географическом пространстве, то процессы, представленные независимыми переменными, ведут себя одинаково по всей области исследования (являются стационарными). Если модель согласована в пространстве данных, то разница в отношениях между предсказанными значениями и каждой независимой переменной не меняется при изменении самой переменной (в модели нет гетероскедастичности). Предположим, вы хотите предсказать преступление, и на входе у вас есть одна независимая переменная. У модели будет сомнительная зависимость дисперсии от случайной величины, если предсказания были более точными для участков с низкими значениями медианы, нежели для участков с большим значением. Нулевая гипотеза для этого критерия заключается в том, что модель является стационарной. Для 95% уровня надежности p-значение (вероятность) менее 0.05 означает статистически значимую зависимость дисперсии от другой случайной величины и/или нестационарность. В случае, когда результаты критерия являются статистически значимыми, проанализируйте стандартные ошибки и вероятности коэффициента надежности для оценки эффективности каждой независимой переменной. Регрессионные модели со статистически значимой нестационарностью зачастую являются отличными данными для анализа ГВР.
  • Статистика Жака-Бера – показывает, являются ли невязки (полученные/известные зависимые переменные минус предсказанные/ожидаемые значения) нормально распределенными. Нулевая гипотеза для данного критерия заключается в том, что невязки распределены нормально, поэтому, если вы построите для них гистограмму, она будет выглядеть как классическая колоколообразная кривая или Гауссово распределение. Когда p-значение (вероятность) для этого критерия мала (например, менее 0.05 для 95% уровня надежности), невязки не распределены нормально, это значит, что модель смещена. Если у вас есть статистически значимая пространственная автокорреляция невязок (см. ниже), смещение может быть результатом ошибок спецификации модели (потеря ключевой переменной в модели). Результаты такой модели являются ненадежными. Статистически значимый критерий Жака-Бера также может возникнуть, если вы пытаетесь смоделировать нелинейные отношения, а данные содержат значительные выбросы или сильно выражена зависимость дисперсии от случайной величины.

Выходные диаграммы

Диаграммы, создаваемые этим инструментом для Типа модели Непрерывная включают матрицу рассеяния переменных, используемых в модели, гистограмму невязок модели, и график невязок и прогнозов.

Бинарная (Логистическая)

Интерпретация сообщений и показателей диагностики

  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и ОЛР является одним из вариантов оценки преимуществ перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР).
  • % объяснимых отклонений – соотношение дисперсии зависимой переменной, объяснимой при помощи независимой переменной.
  • Соединенная статистика Вальда – соединенная статистика Вальда измеряет общую статистическую значимость модели. Нулевая гипотеза для этого критерия подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.

Выходные диаграммы

Диаграммы, создаваемые этим инструментом для Типа модели Бинарная включают матрицу рассеяния переменных, используемых в модели, ящичковую диаграмму, показывающую распределения независимых переменных, гистограмму невязок модели и таблицу эффективность прогноза.

Количественная (Пуассона)

Интерпретация сообщений и показателей диагностики

  • AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и ОЛР является одним из вариантов оценки преимуществ перехода от глобальной модели (ОЛР) к локальной модели регрессии (ГВР).
  • % объяснимых отклонений – соотношение дисперсии зависимой переменной, объяснимой при помощи независимой переменной.
  • Соединенная статистика Вальда – соединенная статистика Вальда измеряет общую статистическую значимость модели. Нулевая гипотеза для этого критерия подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.

Выходные диаграммы

Диаграммы, создаваемые этим инструментом для Типа модели Непрерывная включают матрицу рассеяния переменных, используемых в модели, гистограмму невязок модели, и график невязок и прогнозов.

Дополнительные ресурсы

Существует целый ряд ресурсов, содержащих подробную информацию как о Обобщенной линейной регрессии, так и о Географически взвешенной регрессии. Начните с Основ регрессионного анализа или обратитесь к Руководство по регрессионному анализу.

Можно также воспользоваться ресурсами ниже:

Aldworth, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002). Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. and Wedderburn, R. W. M. (1972) Generalized linear models. J. R. Statist. Soc. A, 135, 370 - 384.