Регрессионный анализ – это, пожалуй, наиболее часто используемый метод статистики в общественных науках. Регрессия используется для оценки отношений между двумя или более атрибутами объектов. Определение и измерение отношения позволяют вам лучше понять, что происходит на месте, предсказать, где что-то случится, или начать проверять причины, почему события случаются в тех местах, где это происходит.
Метод наименьших квадратов (МНК) - наиболее известный метод регрессионного анализа. Его можно рассматривать как отправную точку для всех способов пространственного регрессионного анализа. Метод обеспечивает построение глобальной модели переменной или процесса, которые вы хотите изучить или предсказать; он создает уравнение регрессии, отражающее происходящий процесс.
Существует целый ряд ресурсов, содержащих подробную информацию как о МНК, так и о Географически взвешенной регрессии. Начните с Основ регрессионного анализа. Затем поработайте с обучающим руководством по регрессионному анализу. В этом разделе объясняется, как интерпретировать результаты вашего анализа, что поможет вам лучше понять выходные данные и показатели диагностики МНК.
Входные данные
Чтобы запустить инструмент МНК, укажите Входной класс объектов с полем уникального ID, Зависимую переменную, которую требуется смоделировать/объяснить/спрогнозировать, и список Независимых значений. Кроме того, нужно будет указать путь к выходному классу объектов и, если это необходимо, пути к выходному файлу отчета, выходной таблице коэффициентов и выходной таблице диагностики.
Интерпретация результатов МНК
Выходные данные, создаваемые инструментом МНК, включают выходной класс объектов-невязок МНК, статистические результаты и показатели проверок в окне Сообщения, а также некоторые дополнительные данные, в частности, выходной отчет в формате файла PDF, таблица коэффициентов независимых переменных и таблица проверок регрессии. Ниже представлено описание каждого из этих элементов в виде серии шагов от запуска регрессии МНК до интерпретации результатов его работы.
После запуска МНК просмотрите отчет МНК, записанный в виде сообщений во время выполнения инструмента в файл, хранящийся по указанному вами в параметре Выходной файл отчета пути.
Просмотрите сводный отчет, используя приведенные ниже инструкции.
Доступ к статистическому отчету
- Оценка производительности модели. Оба значения Множественный R-2 и Скорректированный R-2 являются показателями производительности модели. Возможные значения варьируются от 0.0 до 1.0. Значение Скорректированного R-2 всегда несколько ниже, нежели Множественного R-2, поскольку отражает сложность модели (количество переменных), что, в свою очередь, связано с целостностью данных, поэтому гораздо точнее отражает производительность модели. Добавление независимых переменных в модель, как правило, повышает значение Множественного R-2, но понижает при этом значение Скорректированного R-2. Предположим, вы создаете регрессионную модель домовых краж (количество домовых краж по каждому кварталу является зависимой переменной, y). Значение Скорректированного R-2, равное 0,39 показывает, что ваша модель (или независимые переменные, промоделированные с использованием линейной регрессии) объясняет порядка 39 процентов случаев поведения зависимой переменной. Иными словами, ваша модель описывает около 39% домовых краж.
- Оценка каждой независимой переменной в модели: Коэффициент, Вероятность или Устойчивая вероятность и Фактор, увеличивающий дисперсию (VIF). Коэффициент для каждой независимой переменной отражает силу и тип отношений между независимой и зависимой переменной. Если коэффициент отрицательный, отношения являются "негативными" (например, чем больше расстояние от центра города, тем меньше количество домовых краж). Если значение положительно, связь между показателями прямая (например, чем больше население, тем больше количество домовых краж). Коэффициенты приводятся в тех же единицах, что и связанные с ними независимые переменные (коэффициент 0.005 связан с переменной, представляющей численность населения, которую можно указать как 0.005 человек). Коэффициент отражает ожидаемое изменение в зависимой переменной для каждого изменения в связанной независимой переменной, хранящей все остальные константы переменных (например, при добавлении очередного жильца в квартал (который "хранит" все остальные независимые переменные), ожидается повышение значения домовых краж на 0,005). T-критерий используется для проведения оценки того, являются ли независимые переменные значимыми. Нулевая гипотеза означает, что для всех случаев коэффициент близок к нулю (и, соответственно, не подходит для моделирования). В случаях, когда вероятность или устойчивая вероятность (p-значения) являются очень маленькими, шанс того, что коэффициент равен нулю, также невелик. Если критерий Кенкера (см. ниже) является статистически значимым, используйте значения устойчивой вероятности для оценки статистической значимости независимых переменных. Статистические значимости вероятности помечены звездочкой (*). Независимая переменная, связанная со статистически значимым коэффициентом, важна для модели регрессии, если теоретическое/часто встречаемое значение поддерживает корректное отношение с зависимой переменной, если моделируемое отношение является, в основном, линейным и если переменная не является избыточной для всех остальных независимых переменных в модели. Фактор, увеличивающий дисперсию, измеряет избыточность среди независимых переменных. Предполагается, что независимые переменные, связанные со значениями фактора VIF, больше, чем 7,5 должны быть удалены (по одному) из модели регрессии. Если, например, в модели имеется переменная населения (количество человек) и переменная трудящихся (количество работающих человек), явную связь между ними можно найти по высокому значению VIF, увеличивающего дисперсию, который показывает, что обе переменных говорят об одном и том же, следовательно, одну из них из модели можно удалить.
- Оценка значимости модели. Показатели Соединенная F-статистика и Соединенная статистика Вальда отвечают за общую статистическую значимость модели. Соединенная F-статистика является надежным только в том случае, когда Статистика Кенкера (BP) (см. ниже) не является статистически значимым. В противном случае желательно проанализировать Соединенную статистику Вальда, чтобы определить общую значимость модели. Нулевая гипотеза для обоих критериев подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.
- Оценка стационарности. Статистика Кенкера (BP) (стьюдентизированная Кенкером статистика Бреуша-Пагана) – это тест на определение того, имеют ли независимые переменные в модели постоянную связь с зависимой переменной как в географическом пространстве, так и в пространстве данных. Если модель согласована в географическом пространстве, то процессы, представленные независимыми переменными, ведут себя одинаково по всей области исследования (являются стационарными). Если модель согласована в пространстве данных, то разница в отношениях между предсказанными значениями и каждой независимой переменной не меняется при изменении самой переменной (в модели нет гетероскедастичности). Предположим, вы хотите предсказать преступление, и на входе у вас есть одна независимая переменная. У модели будет сомнительная зависимость дисперсии от случайной величины, если предсказания были более точными для участков с низкими значениями медианы, нежели для участков с большим значением. Нулевая гипотеза для этого критерия заключается в том, что модель является стационарной. Для 95% уровня надежности p-значение (вероятность) менее 0.05 означает статистически значимую зависимость дисперсии от случайной величины и/или нестационарность. В случае, когда результаты критерия являются статистически значимыми, проанализируйте стандартные ошибки и вероятности коэффициента надежности для оценки эффективности каждой независимой переменной. Регрессионные модели со статистически значимой нестационарностью зачастую являются отличными данными для анализа Географически взвешенной регрессии (ГВР).
- Оценка смещения модели. Статистика Жака-Бера показывает, являются ли невязки (полученные/известные зависимые переменные минус предсказанные/ожидаемые значения) нормально распределенными. Нулевая гипотеза для данного критерия заключается в том, что невязки распределены нормально, поэтому, если вы построите для них гистограмму, она будет выглядеть как классическая колоколообразная кривая или Гауссово распределение. Когда p-значение (вероятность) для этого критерия мала (например, менее 0.05 для 95% уровня надежности), невязки не распределены нормально, это значит, что модель смещена. Если у вас есть статистически значимая пространственная автокорреляция невязок (см. ниже), смещение может быть результатом ошибок спецификации модели (потеря ключевой переменной в модели). Результаты такой модели являются ненадежными. Статистически значимое значение критерия Жака-Бера также можно получить при попытке смоделировать нелинейные отношения, если данные содержат значительные выбросы или наблюдается сильная зависимость дисперсии от случайной величины.
- Оценка пространственной автокорреляции невязок. Всегда запускайте инструмент Пространственная автокорреляция (Индекс Морана I) для невязок регрессии, чтобы убедиться, что они пространственно случайны. Статистически значимая кластеризация высоких и/или низких невязок (пере- или недооценка модели) показывает, что в модели потеряна ключевая переменная (ошибка спецификации). Результаты МНК не могут быть достоверными в таком случае.
- Обратитесь к разделу Почему не работает модель регрессии в документе Основы регрессионного анализа, чтобы убедиться, что ваша модель МНК корректно определена. Если возникают трудности при поиске правильной модели регрессии, инструмент Исследовательская регрессия может оказаться полезным. Замечания по интерпретации в конце сводного отчета МНК напоминают о цели каждого статистического критерия и помогают найти решений, если ваша модель не проходит один или несколько диагностических проверок.
Если вы указали путь к дополнительному выходному файлу отчета, создается PDF-файл со всей информацией в сводном отчете и дополнительными графиками, позволяющими оценить вашу модель. На первой странице отчета представлены сведения о каждой независимой переменной. Как и в первом разделе сводного отчета (см. пункт 2 выше), вы используете эту информацию, чтобы определить, являются ли коэффициенты для каждой независимой переменной статистически значимыми и содержат ли ожидаемый знак (+/-). Если критерий Кенкера статистически значимый (см. пункт 4 выше), то можно доверять только устойчивым вероятностям, чтобы оценить, помогает ли переменная вашей модели или нет. Статистически значимые коэффициенты содержат знак звездочки (*) рядом со своими p-значениями для вероятностей и/или столбцов устойчивой вероятности. По информации на этой странице также можно определить, являются ли независимые переменные избыточными (проблемная мультиколлинеарность). Если теория не говорит иное, независимые переменные с большими значениями Фактора увеличения дисперсии (VIF) следует удалить по одной, пока значения VIF для всех оставшихся независимых переменных не будут меньше 7,5.
В следующей разделе выходного файла отчета перечисляются результаты диагностических проверок OLS. На этой странице также представлены замечания по интерпретации, описывающие необходимость каждой проверки. Если ваша модель не проходит одну из этих проверок, в таблице типичных проблем с регрессией можно найти серьезность каждой проблемы и возможный путь ее устранения. Графики на остальных страницах отчета также помогают вам выявить и устранить проблемы с моделью.
В третьем разделе выходного файла отчета представлены гистограммы с распределением каждой переменной в модели, а также диаграммы рассеивания, показывающие отношения зависимой и независимой переменной. Если у вас возникают проблемы со смещением модели (это обозначается статистически значимым p-значением Жака-Бера), найдите в гистограммах распределения с асимметрией и попробуйте преобразовать эти переменные, чтобы увидеть, устраняет ли это смещение и улучшается ли производительность модели. Диаграммы рассеивания показывают, какие переменные являются лучшими предикторами. Используйте эти диаграммы рассеивания, чтобы проверить переменные на наличие нелинейных отношений. В некоторых случаях преобразование одной или нескольких переменных устраняет нелинейные отношения и смещение модели. Выбросы в данных также могут привести к получению смещенной модели. Проверьте гистограммы и диаграммы рассеивания на наличие таких данных или отношений. Попробуйте запустить модель с выбросами и без них, чтобы оценить, как они влияют на результаты. Вы можете обнаружить, что выброс – это некорректные данные (введенные или записанные с ошибкой) и сможете удалить связанный объект из набора данных. Если выброс отражает корректные данные и сильно влияет на результаты анализа, вы можете провести ваш анализ с выбросами и без них.
После получения правильно настроенной модели переоценки и недооценки будут отражать случайный шум. Если вам нужно создать гистограмму случайного шума, обычно это кривая с нормальным распределением (в виде колокола). Четвертый раздел выходного файла отчета представляет гистограмму переоценок и недооценок модели. Полосы на гистограмме отображают фактическое распределение, а синяя линия сверху диаграммы показывает форму, которую бы приняла гистограмма, если остатки имели нормальное распределение. Вряд ли вы получите идеальные результаты, поэтому следует проверить критерий Жака-Бера, чтобы определить, является ли отклонение от нормального распределение статистически значимым или нет.
Диагностика Кенкера позволяет определить, меняются ли моделируемые отношения в изучаемой области (нестационарность) или зависят от величины переменной, которую вы пытаетесь предсказать (зависимость дисперсии от случайной величины). Географически взвешенная регрессия позволяет устранить проблемы с нестационарностью. На графике в разделе 5 файла выходного отчета будет показано, имеется ли проблема с зависимостью дисперсии от случайной величины. На диаграмме рассеивания (см. ниже) показано отношение остаточных и прогнозируемых значений модели. Предположим, вы моделируете частоту преступлений. Если на графике показана коническая форма с точкой слева и расширением справа от графика, это указывает на то, что ваша модель хорошо прогнозирует расположения с низкой частотой преступлений, и плохо прогнозирует расположения с высокой частотой преступлений.
На последней странице отчета показаны все настройки параметров, использованные при создании отчета.
Изучите невязки модели в выходном классе объектов. Пере- и недооценки для правильно настроенной модели регрессии будут распределены случайно. Кластеризация переоценок и/или недооценок является доказательством того, что потеряна как минимум одна независимая переменная. Проверьте "рисунок" невязок модели, чтобы посмотреть, не говорит ли он о том, какие переменные могли быть утеряны. Иногда запуск инструмента Анализ горячих точек для нее может помочь определить более общие закономерности. Дополнительные стратегии для обработки неправильно определенной модели см. в разделе Что вам не говорят о регрессионном анализе.
Просмотрите таблицы коэффициентов и проверок. Создавать их необязательно. Если вы находитесь в процессе поиска эффективной модели, можно обойтись без них. Но этот процесс итеративен, поэтому может быть перепробовано огромное количество моделей (с разными независимыми переменными) до тех пор, пока не будет найдена лучшая. Вы можете использовать Скорректированный информационный критерий Акаике (AICc) в отчете, чтобы сравнить модели между собой. Модель с меньшим значением AICc лучше (то есть, наиболее точно отражает данные наблюдений).
Создание таблиц коэффициентов и диагностики для ваших итоговых моделей МНК позволяет фиксировать важные элементы отчета МНК. Таблица коэффициентов содержит список использованных в модели независимых переменных с их коэффициентами, стандартизированными коэффициентами, стандартными ошибками и вероятностями. Коэффициент представляет собой оценку того, насколько изменится зависимая переменная при изменении связанной с ней независимой переменной на 1 единицу. Единицы коэффициентов соответствуют независимым переменным. Если, например, у вас есть независимая переменная для общего количества населения, то и единица коэффициента для этой переменной будет отражать население; если другая независимая переменная будет для расстояния (в метрах) от железнодорожной станции, то единицы такого коэффициента будут отражать метры. Если эти коэффициенты конвертировать в среднеквадратические отклонения, то они будут называться стандартизированными коэффициентами. Стандартизированные коэффициенты могут использоваться для того, чтобы можно было сравнить силу влияния, которое имеют другие независимые переменные на зависимую переменную. Независимая переменная с наибольшим абсолютным значением стандартизированного коэффициента (т.е. после того, как вы отбросите знаки +/-) будет иметь наибольшую силу влияния на зависимую переменную. Следует иметь ввиду, что при интерпретации коэффициентов необходимо принимать в расчет стандартную ошибку. Стандартные ошибки указывают, насколько вероятно получить такие же коэффициенты при повторном отборе данных и перекалибровке модели множество раз. Большие значения стандартных ошибок для коэффициента означают, что в процессе повторов будет получен широкий диапазон возможных значений коэффициента; малые значения стандартных ошибок явно говорят о его постоянстве.
Таблица диагностики содержит результаты для каждого критерия, а также пояснения по интерпретации этих результатов.
Дополнительные ресурсы
Существует целый ряд хороших ресурсов, которые помогут вам узнать больше о регрессии МНК на странице Ресурсы о пространственной статистике. Начните с Основ регрессионного анализа или обратитесь к Руководство по регрессионному анализу. Примените регрессионный анализ к собственным данным, изучите таблицу типичных проблем и статью Что вам не говорят о регрессионном анализе для поиска дополнительных стратегий. Если возникают трудности при поиске правильно определенной модели, инструмент Исследовательская регрессия может оказаться полезным.
Можно также воспользоваться ресурсами ниже:
- Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
- Wooldridge, J. M. Introductory Econometrics: A Modern Approach. South-Western, Mason, Ohio, 2003.
- Hamilton, Lawrence C. Regression with Graphics. Brooks/Cole, 1992.