При запуске инструмента Исследовательская регрессия основным результатом является отчет. Отчет записывается в виде сообщений геообработки во время работы инструмента, и к нему также можно получить доступ в истории геообработки проекта. Вы также можете вывести таблицу, которая поможет вам в дальнейшем изучении протестированных моделей. Одна из целей отчета – помочь вам определить, получаются ли при комбинации потенциальных независимых переменных корректные модели МНК. В случае, если ни одна из моделей не соответствует всем критериям, указанным при запуске инструмента Исследовательская регрессия, в отчете все же будет показано, какие переменные являются согласованными предикторами, что позволяет определить, в каких диагностических тестах возникла ошибка. Стратегии решения проблем, связанных с каждым диагностическим тестом, представлены в разделе Что вам не говорят о регрессионном анализе и документе Основы регрессионного анализа (см. Типичные проблемы с регрессией, последствия и решения). Дополнительные сведения о том, как узнать, является ли модель МНК корректной, см. в разделе Основы регрессионного анализа.
Информация об отчете
В отчете инструмента Исследовательская регрессия пять разделов. Каждый из них описывается ниже.
- Лучшие модели по числу независимых переменных
- Глобальная сводка исследовательской регрессии
- Сводка значимости переменных
- Сводка мультиколлинеарности
- Дополнительные сводные данные диагностики
Лучшие модели по числу независимых переменных
Первый набор сводных данных в итоговом отчете группируется по числу независимых переменных в проверенных моделях. Если указать число 1 для параметра Минимальное число независимых переменных и значение 5 для параметра Максимальное число независимых переменных, в отчете будет 5 сводных разделов. В каждом разделе указывается три модели с наибольшими скорректированными значениями R2, а также все проходящие модели. В каждом разделе также указаны диагностические значения для каждой модели: скорректированный информационный критерий Акаике – AICc, p-значение Жака-Бера – JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана – K(BP), наибольший Фактор, увеличивающий дисперсию – VIF, а также измерение пространственной автокорреляции отклонений (p-значение глобального индекса Морана I) – SA. Эти сводные сведения позволяют оценить, насколько хорошо ваши модели прогнозируют данные (Adj R2) и проходят ли модели все указанные диагностические критерии. Если вы приняли все критерии поиска по умолчанию (параметры Минимальный допустимый скорректированный коэффициент детерминации R2, Максимальный порог p-значения коэффициента, Максимальный порог значения VIF, Минимально допустимое p-значение Жака-Бера и Минимально допустимое p-значение пространственной автокорреляции), то все модели в списке Проходящие модели будут корректными моделями МНК.
Если проходящих моделей нет, в остальном отчете все равно будет представлена полезная информация о переменных отношений, которая может помочь при принятии решений о дальнейших действиях.
Глобальная сводка исследовательской регрессии
Раздел Глобальная сводка исследовательской регрессии – это важное место для начала анализа, особенно если вы не нашли проходящие модели, так как в нем показано, почему модели не прошли проверки. В данном разделе перечислены пять диагностических тестов и процент моделей, прошедших каждый из них. Если проходящих моделей нет, эта информация позволит определить, в каком диагностическом тесте возникают проблемы.
Часто неприятности возникают с тестом глобального индекса Морана I для пространственной автокорреляции (SA). Если у всех проверенных моделей есть невязки регрессии с пространственной автокорреляцией, чаще всего это указывает на отсутствие важных независимых переменных. Один из лучших способов узнать, отсутствуют ли независимые переменные – изучить карту невязок, созданную инструментом Регрессия методом наименьших квадратов (МНК). Выберите одну из моделей исследовательской регрессии, которая хорошо прошла все другие критерии (используйте списки наибольших значений скорректированных R2 или выберите модель из дополнительной выходной таблицы) и запустите МНК с использованием этой модели. Выходные данные инструмента Регрессия методом наименьших квадратов (МНК) – это карта невязок модели. Изучите невязки модели, чтобы получить сведения о недостающих данных. Постарайтесь придумать как можно больше возможных пространственных переменных, таких как расстояние до основных автомагистралей, больниц и других ключевых географических объектов. Попробуйте использовать переменные пространственного режима. Например, если все недооценки расположены в сельских областях, создайте переменную-заполнитель и посмотрите, улучшатся ли результаты регрессионного анализа.
Другой диагностический тест, которые вызывает проблемы – это тест Жака-Бера для невязок с нормальным распределением. Если ни одна из моделей не проходит тест Жака-Бера (JB), налицо проблема со смещением модели. Вот распространенные причины смещения модели:
- Нелинейные отношения
- Выбросы данных
При просмотре матрицы рассеивания возможных независимых значений по отношению к зависимой переменной, вы увидите, имеет ли место одна из этих проблем. Дополнительные стратегии описаны в документе Основы регрессионного анализа. Если модели не проходят тест пространственной автокорреляции (SA), исправьте сначала эти проблемы. Смещение может быть вызвано отсутствием важных независимых переменных.
Сводка значимости переменных
В разделе Сводка значимости переменных представлены сведения об отношениях переменных и их согласованности. В нем указана каждая потенциальная независимая переменная с отношением процента случаев, когда она была статистически значимой. У первых нескольких переменных в списке самые большие значения столбца % Значимости. Вы также можете увидеть стабильность отношений переменных, изучив столбцы % Отрицательно и % Положительно. Значимые предикторы будут постоянно значимы (% Значимости), а отношения будут стабильными (в основном отрицательными или в основном положительными).
Эта часть отчета также может помочь повысить эффективность модели. Это особенно важно при работе с множеством возможных независимых значений (больше 50) и использовании моделей с пятью или большим числом предикторов. При наличии большого числа независимых переменных и проверке многих комбинаций, вычисления могут занять длительное время. В некоторых случаях, инструмент не закончит работу из-за ошибок памяти. Рекомендуется постепенно увеличить число проверяемых моделей: начните с установок для параметров Минимальное число независимых переменных и Максимальное число независимых переменных значений 2, затем 3, затем 4 и т.д. При каждом запуске удаляйте переменные, которые редко являются статистически значимыми для проверяемых моделей. В разделе Сводка значимости переменных вы сможете найти эти переменные, а также сильные предикторы. Удаление даже одной потенциальной независимой переменной из списка может значительно сократить время работы инструмента Исследовательская регрессия.
Сводка мультиколлинеарности
Раздел отчета Сводка мультиколлинеарности можно использовать вместе с разделом Сводка значимости переменных для определения того, какие потенциальные независимые переменные можно удалить из анализа для улучшения производительности. Раздел Сводка мультиколлинеарности позволяет узнать, сколько раз каждая независимая переменная была включена в модель с высокой степенью мультиколлинеарности, а также узнать другие независимые переменные, также включенные в эти модели. Если две (или более) независимых переменных часто обнаруживаются в моделях с высокой мультиколлинеарностью, эти переменные могут описывать один и тот же аспект явления. Поскольку требуется включать только переменные, которые описывают уникальный аспект зависимой переменной, для дальнейшего анализа можно выбрать только одну из избыточных переменных. Можно выбрать самую полезную переменную в разделе Сводка значимости переменных.
Дополнительные сводные данные диагностики
Конечные сводные данные диагностики отображают наибольшие p-значения Жака-Бера (Сводка нормальности остатков) и наибольшие p-значения глобального индекса Морана I (Сводка пространственной автокорреляции остатков). Чтобы пройти эти диагностические тесты, необходимы большие p-значения.
Эти сводные данные не слишком полезны, если модели проходят тест Жака-Бера и тест пространственной автокорреляции (глобальный индекс Морана I), так как если критерий статистической значимости равен 0,1, все модели со значениями более 0,1 также будут проходящими. Но эти сводные данные полезны, если у вас нет проходящих моделей, и вы хотите узнать, насколько вы далеки от нормально распределенных невязок или невязок без статистически значимой пространственной автокорреляции. Например, если p-значения для сводки Жака-Бера равны 0,000000, ясно, что вы очень далеки от нормально распределенных невязок. Или же, если p-значения равны 0,092, то вы близки к нормально распределенным невязкам (на самом деле, в зависимости от выбранного уровня значимости p-значение 0,092 может быть достаточным). Эти сводные данные демонстрируют, насколько серьезна проблема, и, если ни одна из моделей не является проходящей, какие переменные, связанные с моделями, хотя бы близки к прохождению тестов.
Подробная информация о таблице
Если указано значение для параметра Выходная таблица результатов, будет создана таблица со всеми моделями, соответствующими критериям Максимальный порог p-значения коэффициента и Максимальный порог значения VIF. Даже если проходящих моделей нет, существует вероятность того, что в выходной таблице будут какие-то модели. Каждая строка в таблице представляет модель, соответствующую критериям коэффициентов и значений VIF. Столбцы в таблице описывают диагностические тесты и независимые переменные модели. Перечисленные диагностические данные: скорректированный коэффициент детерминации (R2), скорректированный информационный критерий Акаике – AICc, p-значение Жака-Бера – JB, стьюдентизированное Кенкером p-значение Бреуша-Пагана – K(BP), максимальный Фактор увеличивающий дисперсию – VIF, а также p-значение глобального индекса Морана I – SA. Вы можете отсортировать модели по их значениям AICc. Чем меньше значение AICc, тем лучше работает модель. Вы можете отсортировать значения AICc в ArcMap, дважды щелкнув столбец AICc. Если вы выбираете модель для применения в анализе МНК (для изучения невязок), помните о том, что нужно выбрать модель с малым значением AICc и проходящими значениями для максимального числа других диагностических данных. Например, если вы изучили выходной отчет и поняли, что тест Жака-Бера вызвал проблемы, ищите модель с наименьшим значением AICc, которая соответствует всем критериям, кроме Жака-Бера.
Дополнительные ресурсы
Если у вас нет опыта применения регрессионного анализа в ArcGIS, рекомендуется посмотреть запись вебинара Регрессионный анализ: построение модели регрессии с использованием ArcGIS Pro, а затем изучить Руководство по регрессионному анализу.
Также можно изучить следующие источники:
- Более подробно о работе инструмента Исследовательская регрессия
- Что вам не говорят о регрессионном анализе
- Основы регрессионного анализа
Burnham, K.P., and D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd Edition. New York: Springer. Section 1.5.