Интерпретация результатов инструмента Исследовательская регрессия

При запуске инструмента Исследовательская регрессия основным результатом является отчет. Отчет записывается в виде сообщений во время выполнения инструмента и доступен также в Истории геообработки проекта.При необходимости также создается таблица, которая может помочь исследовать протестированные модели. Одна из целей отчета – показать, получаются ли при комбинации потенциальных независимых переменных корректные модели МНК. Если не удалось получить проходящие модели (модели, соответствующие всем указанным критериям после запуска инструмента Исследовательская регрессия, в отчете также будет показано, какие переменные являются согласованными предикторами, что позволяет определить, в каких диагностических тестах возникла ошибка. Стратегии по устранению проблем, связанных с каждым диагностическим тестом, указаны в документе Основы регрессионного анализа (см. раздел Типичные проблемы с регрессией, последствия и решения) и в разделе Что вам не говорят о регрессионном анализе. Дополнительные сведения о том, как узнать, является ли модель МНК корректной, см. в разделах Основы регрессионного анализа и Интерпретация результатов МНК (метода наименьших квадратов).

Отчет

В отчете инструмента Исследовательская регрессия пять разделов. Каждый из них описывается ниже.

Разделы отчета

1. Лучшие модели по числу независимых переменных

Раздел 1 отчета инструмента Исследовательская регрессия

Первый набор сводных данных в отчете группируется по числу независимых переменных в проверенных моделях. Если указать число 1 для параметра Минимальное число независимых переменных и значение 5 для параметра Максимальное число независимых переменных, в отчете будет 5 сводных разделов. В каждом из них указывается три модели с наибольшими скорректированными значениями R2, а также все проходящие модели. В каждом разделе также указаны диагностические значения для каждой модели: скорректированный информационный критерий Акаике – AICc, p-значение Жака-Бера – JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана – K(BP), наибольший Фактор, увеличивающий дисперсию – VIF, а также измерение пространственной автокорреляции отклонений (p-значение глобального индекса Морана I) – SA. Эти сводные сведения позволяют понять, как хорошо ваши модели прогнозируют данные (Adj R2) и проходят ли модели все указанные диагностические критерии. Если вы приняли все критерии поиска по умолчанию (параметры Минимальный допустимый скорректированный коэффициент детерминации R2), Максимальный порог p-значения коэффициента, Максимальный порог значения VIF, Минимально допустимое p-значение Жака-Бера и Минимально допустимое p-значение пространственной автокорреляции ), все модели в списке Проходящие модели будут корректными моделями МНК.

Если проходящих моделей нет, в остальном отчете все равно будет представлена полезная информация о переменных отношений, которая может помочь при принятии решений о дальнейших действиях.

2. Глобальная сводка исследовательской регрессии

Раздел 2 отчета инструмента Исследовательская регрессия

Раздел Глобальная сводка исследовательской регрессии – это важное место для начала анализа, особенно если вы не нашли проходящие модели, так как в нем показано, почему модели не прошли проверки. В данном разделе перечислены пять диагностических тестов и процент моделей, прошедших каждый из них. Если проходящих моделей нет, эта информация позволит определить, в каком тесте возникают проблемы.

Часто неприятности возникают с тестом глобального индекса Морана I для пространственной автокорреляции (SA). Если у всех проверенных моделей есть невязки регрессии с пространственной автокорреляцией, чаще всего это указывает на отсутствие важных независимых переменных. Один из лучших способов узнать, отсутствуют ли независимые переменные – изучить карту невязок, созданную инструментом Регрессия методом наименьших квадратов (МНК). Выберите одну из моделей исследовательской регрессии, которая хорошо прошла все другие критерии (используйте списки наибольших значений скорректированных R2 или выберите модель из дополнительной выходной таблицы) и запустите МНК с использованием этой модели. Выходные данные инструмента Регрессия методом наименьших квадратов (МНК) – это карта невязок модели. Изучите невязки модели, чтобы получить сведения о недостающих данных. Попробуйте сформировать наибольшее число потенциальных пространственных переменных, таких как расстояние до центра города, больниц и других географических объектов. Попробуйте использовать переменные пространственного режима. Например, если все недооценки расположены в сельских областях, создайте бинарную переменную и посмотрите, улучшатся ли результаты регрессионного анализа.

Другой диагностический тест, которые вызывает проблемы – это тест Жака-Бера для невязок с нормальным распределением. Если ни одна из моделей не проходит тест Жака-Бера (JB), налицо проблема со смещением модели. Распространенные причины смещения модели:

  • Нелинейные отношения
  • Выбросы данных

При просмотре матрицы рассеивания возможных независимых значений по отношению к зависимой переменной, вы увидите, имеет ли место одна из этих проблем. Дополнительные стратегии описаны в документе Основы регрессионного анализа. Если модели не проходят тест пространственной автокорреляции (SA), исправьте сначала эти проблемы. Смещение может быть вызвано отсутствием важных независимых переменных.

3. Сводка значимости переменных

Раздел 3 отчета инструмента Исследовательская регрессия

В разделе Сводка значимости переменных представлены сведения об отношениях переменных и их согласованности. В нем указана каждая потенциальная независимая переменная с отношением количества раз, когда она была статистически значимой. У первых нескольких переменных в списке самые большие значения столбца % Значимости. Вы также можете увидеть стабильность отношений переменных, изучив столбцы % Отрицательно и % Положительно. Значимые предикторы будут постоянно значимы (% Значимости), а отношения будут стабильными (в основном отрицательными или в основном положительными).

Эта часть отчета также позволяет повысить эффективность модели. Это особенно важно при работе с множеством возможных независимых значений (больше 50) и использовании моделей с пятью или большим числом предикторов. При наличии большого числа независимых переменных и проверке многих комбинаций, вычисления могут занять длительное время. В некоторых случаях, фактически, инструмент не закончит работу из-за ошибок памяти. Рекомендуется постепенно увеличить число проверяемых моделей: начните с установки для параметров Минимальное число независимых переменных и Максимальное число независимых переменных значение 2, затем 3, затем 4 и т. д. С каждым запуском удаляются переменные, которые редко являются статистически значимыми для проверяемых моделей. В разделе Сводка значимости переменных вы сможете найти эти переменные, а также сильные предикторы. Удаление даже одной потенциальной независимой переменной из списка может значительно сократить время работы инструмента Исследовательская регрессия.

4. Сводка мультиколлинеарности

Раздел 4 отчета инструмента Исследовательская регрессия

Раздел отчета Сводка мультиколлинеарности можно использовать вместе с разделом Сводка значимости переменных для определения того, какие потенциальные независимые переменные можно удалить из анализа для улучшения производительности. Раздел Сводка мультиколлинеарности позволяет узнать, сколько раз каждая независимая переменная была включена в модель с высокой степенью мультиколлинеарности, а также узнать другие независимые переменные, также включенные в эти модели. Если две (или более) независимых переменных часто обнаруживаются в моделях с высокой мультиколлинеарностью, эти переменные могут описывать один и тот же аспект явления. Так как требуется включать только переменные, которые описывают уникальный аспект зависимой переменной, можно выбрать только одну из избыточных переменных для дальнейшего анализа. Можно выбрать самую полезную переменную в разделе Сводка значимости переменных.

5. Дополнительные сводные данные диагностики

Раздел 5 отчета инструмента Исследовательская регрессия

Конечные сводные данные диагностики отображают наибольшие p-значения Жака-Бера (Сводка нормальности остатков) и наибольшие p-значения глобального индекса Морана I (Сводка пространственной автокорреляции остатков). Чтобы пройти эти диагностические тесты, необходимы большие p-значения.

Эти сводные данные не слишком полезны, если модели проходят тест Жака-Бера и тест пространственной автокорреляции (глобальный индекс Морана I), так как если критерий статистической значимости равен 0,1, все модели со значениями более 0,1 также будут проходящими. Но эти сводные данные полезны, если у вас нет проходящих моделей, и вы хотите узнать, насколько вы далеки от нормально распределенных невязок или невязок без статистически значимой пространственной автокорреляции. Например, если p-значения для сводки Жака-Бера равны 0,000000, ясно, что вы очень далеки от нормально распределенных невязок. Или же, если p-значения равны 0,092, то вы близки к нормально распределенным невязкам (к слову, в зависимости от выбранного уровня значимости p-значение 0,092 может быть достаточным). Эти сводные данные демонстрируют, насколько серьезна проблема, и, если ни одна из моделей не является проходящей, какие переменные, связанные с моделями, хотя бы близки к прохождению тестов.

Таблица

Таблица исследовательской регрессии

Если указано значение для параметра Выходная таблица результатов, будет создана таблица со всеми моделями, соответствующими критериям Максимальный порог p-значения коэффициента и Максимальный порог значения VIF. Даже если проходящих моделей нет, существует вероятность того, что в выходной таблице будут какие-то модели. Каждая строка в таблице представляет модель, соответствующую критериям коэффициентов и значений VIF. Столбцы в таблице описывают диагностические тесты и независимые переменные модели. Диагностические данные: скорректированный коэффициент детерминации (R2), скорректированный информационный критерий Акаике – AICc, p-значение Жака-Бера – JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана – K(BP), максимальный Фактор увеличивающий дисперсию – VIF, а также p-значение глобального индекса Морана I – SA. Вы можете отсортировать модели по их значениям AICc. Чем меньше значение AICc, тем лучше работает модель. Вы можете отсортировать значения AICc в ArcMap, дважды щелкнув столбец AICc. Если вы выбираете модель для применения в анализе МНК (для изучения невязок), то помните о том, что нужно выбрать модель с малым значением AICc и проходящими значениями для максимального числа других диагностических данных. Например, если вы изучили выходной отчет и поняли, что тест Жака-Бера вызвал проблемы, ищите модель с наименьшим значением AICc, которая соответствует всем критериям, кроме Жака-Бера.

Дополнительные ресурсы

Если у вас нет опыта регрессионного анализа в ArcGIS, настоятельно рекомендуем просмотреть бесплатный семинар по регрессии Esri Virtual Campus, а затем запустить Руководство по регрессионному анализу перед использованием инструмента Исследовательская регрессия.

Возможно, вы также захотите просмотреть следующие разделы: