Как работает инструмент Исследовательская регрессия

Найти определенную должным образом модель МНК может быть непросто, особенно когда существует множество потенциальных независимых переменных, которые вы можете считать важными факторами, влияющими на переменную, которую вы пытаетесь смоделировать (вашу зависимую переменную). Здесь поможет инструмент Исследовательская регрессия. Это инструмент интеллектуального анализа данных, который пробует все возможные комбинации независимых переменных, чтобы увидеть, какие модели проходят все необходимые диагностики МНК. Оценивая все комбинации потенциальных независимых переменных, вы значительно увеличиваете свои шансы найти самую подходящую модель для решения вашей проблемы или ответа на ваш вопрос. Исследовательская регрессия похожа на Пошаговую регрессию (есть во многих статистических программных пакетах), но вместо того, чтобы искать модели с высокими значениями скорректированного R2, Исследовательская регрессия ищет модели, которые отвечают всем требованиям и предположениям метода МНК.

Использование инструмента Исследовательская регрессия

При запуске инструмента Исследовательская регрессия вы указываете минимальное и максимальное количество независимых переменных, которые должна содержать каждая модель, а также пороговые критерии для Скорректированного R2, p-значения коэффициентов, значения Фактора увеличивающего дисперсию (VIF), p-значения статистики Жака-Бера и p-значения пространственной автокорреляции. Исследовательская регрессия запускает МНК для всех возможных комбинаций значений параметров Потенциальных независимых переменных для моделей с имеющих, по крайней мере Минимальное количество независимых переменных и не более Максимального количества объясняющих переменных. Каждая опробованная модель, оценивается по значению параметра Критерии поиска. При обнаружении модели, которая:

  • Превышает установленный вами порог для Скорректированного R2
  • С p-значениями коэффициентов для всех независимых переменных меньше, чем вы указали
  • Со значениями VIF коэффициентов для всех независимых переменных, меньшими, чем заданный вами порог
  • Возвращает p-значения статистики Жарка-Бера, больше, чем вы указали

Тогда она запускает инструмент Пространственная автокорреляция (Глобальный индекс Морана I) для невязок этой модели. Если p-значение пространственной автокорреляции также больше, чем вы указали в критериях поиска инструмента (значение параметра Минимально допустимое p-значение пространственной автокорреляции), модель заносится в список как прошедшая проверку. Инструмент Исследовательская регрессия также протестирует невязки регрессии с помощью инструмента Пространственная автокорреляция для моделей с тремя самыми высокими результатами Скорректированного R2.

Модели, перечисленные в разделе прошедших моделей, соответствуют заданным вами критериям поиска. Если вы возьмете значения по умолчанию для параметров Максимальный порог p-значения коэффициента, Максимальный порог значения VIF, Минимально допустимое p-значение Жака-Бера и Минимально допустимое p-значение пространственной автокорреляции, ваши прошедшие модели также будут корректными моделями МНК. Должным образом определенная модель МНК имеет следующие свойства:

  • Независимые переменные, у которых все коэффициенты статистически значимы
  • Коэффициенты, отражающие ожидаемую или, по крайней мере, обоснованную связь между каждой независимой переменной и зависимой переменной
  • Независимые переменные, которые представляют различные аспекты того, что вы пытаетесь смоделировать (ни одна из них не является излишней; малые значения VIF менее 7,5)
  • Нормально распределенные невязки, указывающие на то, что ваша модель не содержит смещения (p-значение Жарка-Бера не является статистически значимым)
  • Случайное распределение завышенных и заниженных прогнозов указывает на нормальное распределение невязок модели (p-значение пространственной автокорреляции не является статистически значимым)

Когда вы указываете значение параметра Выходная таблица результатов модель, которая соответствует вашему значению параметра Максимальный порог значения VIF и для которой независимые переменные соответствуют значению параметра Максимальный порог p-значения коэффициента, будет записана в таблицу. Эта таблица помогает, когда вы хотите изучить не только те модели, которые включены в текстовый файл отчета.

Предостережения

Имейте в виду, что, как и при использовании таких методов, как Пошаговая регрессия, применение инструмента Исследовательская регрессия является спорным. Хотя это и преувеличение, но в основном существуют две школы мысли по этому поводу: точка зрения научного метода и точка зрения сборщика данных.

Точка зрения научного метода

Убежденный сторонник научного метода может возражать против методов исследовательской регрессии. С этой точки зрения, вы должны формализовать свои гипотезы до исследования данных, чтобы избежать создания моделей, которые соответствуют только вашим данным, но не отражают более широкие процессы. Построение моделей, чрезмерно подогнанных для одного конкретного набора данных, может быть неактуальным для других наборов данных - иногда, на самом деле, даже добавление новых наблюдений приводит к тому, что чрезмерно подогнанная модель становится нестабильной (может снизиться производительность или может уменьшиться значимость коэффициента независимой переменной). Когда ваша модель не является надежной даже для новых наблюдений, она, безусловно, не раскрывает ключевые процессы для того, что вы пытаетесь смоделировать.

Кроме того, имейте в виду, что статистика регрессии основана на теории вероятности, и когда вы запускаете тысячи моделей, вы сильно увеличиваете свои шансы неправомерно отвергнуть нулевую гипотезу (статистическая ошибка 1 типа). Например, когда вы выбираете 95-процентный уровень доверия, вы принимаете на себя определенный риск; если бы вы могли повторить выборку ваших данных 100 раз, вероятно, что 5 из этих 100 выборок дали бы ложные срабатывания. P-значения вычисляются для каждого коэффициента; нулевая гипотеза заключается в том, что коэффициент на самом деле равен нулю и, следовательно, независимая переменная, связанная с этим коэффициентом, не помогает вашей модели. Теория вероятности показывает, что в 5 из 100 выборок значение p может быть статистически значимым только потому, что вы случайно выбрали наблюдения, которые ложно подтверждают этот вывод. Когда вы используете только одну модель, 95-процентный уровень доверия кажется консервативным. По мере увеличения количества моделей, которые вы пробуете, вы уменьшаете свою способность делать выводы из полученных результатов. Инструмент Исследовательская регрессия позволяет опробовать тысячи моделей всего за несколько минут. Количество опробованных моделей сообщается в разделе глобальной сводки значения параметра Выходной файл отчета.

Точка зрения сборщика данных

С другой стороны, исследователи, придерживающиеся школы интеллектуального анализа данных, скорее всего, считают, что невозможно априори знать все факторы, которые способствуют тому или иному реальному результату. Часто вопросы, на которые мы пытаемся ответить, сложны, а теории по вашей конкретной теме может не существовать или она может быть устаревшей. Специалисты по сбору данных являются большими сторонниками индуктивных методов анализа, таких как исследовательская регрессия. Они поощряют нестандартное мышление и использование методов исследовательской регрессии для разработки гипотез.

Рекомендации

Инструмент Исследовательская регрессия может быть ценным инструментом интеллектуального анализа данных, который поможет вам найти должным образом определенную модель МНК. Рекомендуется всегда выбирать такие потенциальные независимые переменные регрессии, которые подтверждаются теорией, рекомендациями экспертов и здравым смыслом. Калибруйте свои модели регрессии, используя часть данных, и проверяйте их на оставшейся части, или проверяйте свою модель на дополнительных наборах данных. Если вы планируете делать выводы из своих результатов, вам также следует провести анализ чувствительности, например, бутстрэппинг.

Использование инструмента Исследовательская регрессия действительно имеет преимущества перед использованием других методов исследования, которые оценивают эффективность модели только в терминах значений Скорректированного R2. Инструмент Исследовательская регрессия ищет модели, которые проходят все описанные выше диагностики МНК.