Как работает инструмент Исследовательская регрессия (Exploratory Regression)

Поиск правильной модели OLS может быть трудной задачей, особенно при наличии множества потенциальных независимых переменных, которые, по вашему мнению, могут влиять на моделируемую переменную (вашу зависимую переменную). Инструмент Исследовательская регрессия (Exploratory Regression) может помочь решить эту задачу. Это инструмент анализа данных, который опробует все сочетания возможных независимых переменных, чтобы узнать, какие модели проходят необходимые тесты OLS. Оценивая все возможные комбинации потенциальных независимых переменных, вы значительно повышаете шансы нахождения лучшей модели для решения задачи или ответа на вопрос. Хотя инструмент Исследовательская регрессия (Exploratory Regression) похож на пошаговую регрессию (которая включена во многие программные компоненты), но вместо поиска моделей с большими скорректированными значениями R2, Исследовательская регрессия (Exploratory Regression) ищет модели, соответствующие всем требованиям и предположениям для метода OLS.

Использование инструмента Исследовательская регрессия (Exploratory Regression)

При выполнении инструмента Исследовательская регрессия (Exploratory Regression) вы указываете минимальное и максимальное число независимых переменных, а также пороговые критерии для скорректированных значений R2, p-значений коэффициентов, Фактора увеличения дисперсии (VIF), p-значений Жака-Бера и p-значений пространственной автокорреляции. Инструмент Исследовательская регрессия (Exploratory Regression) использует метод OLS для каждой комбинации потенциальных независимых переменных для моделей, для которых число независимых переменных не меньше параметра Минимальное число независимых переменных (Minimum Number of Explanatory Variables) и не больше параметра Максимальное число независимых переменных (Maximum Number of Explanatory Variables). Каждая модель оценивается по критериям поиска. Когда найдена модель:

  • Которая превышает заданное пороговое скорректированное значение R2
  • С p-значениями коэффициентов для всех независимых переменных меньше указанного значения
  • Со значениями VIF коэффициентов для всех независимых переменных меньше указанного порогового значения
  • Возвращается p-значение Жака-Бера, большее, чем указанное

Затем запустите инструмент Пространственная автокорреляция (Глобальный индекс Морана I) (Spatial Autocorrelation (Global Moran’s I)) с невязками этой модели. Если p-значение пространственной автокорреляции больше заданного в критериях поиска инструмента (Минимально допустимое p-значение пространственной автокорреляции (Minimum Acceptable Spatial Autocorrelation p-value)), модель обозначается как проходящая модель. Инструмент Исследовательская регрессия (Exploratory Regression) также проверяет невязки регрессии с помощью инструмента Пространственная автокорреляция (Spatial Autocorrelation) для моделей с тремя наибольшими скорректированными значениями R2.

Модели, указанные в списке Проходящие модели (Passing Models), соответствуют указанным критериям поиска. Если вы приняли значения по умолчанию для параметров Максимальный порог p-значения коэффициента (Maximum Coefficient p-value Cutoff), Максимальный порог значения VIF (Maximum VIF Value Cutoff), Минимально допустимое p-значение Жака-Бера (Minimum Acceptable Jarque Bera p-value) и Минимально допустимое p-значение пространственной автокорреляции (Minimum Acceptable Spatial Autocorrelation p-value), проходящие модели также будут правильными моделями OLS. Правильно указанная модель OLS:

  • Содержит независимые переменные, коэффициенты которых являются статистически значимыми
  • Содержит коэффициенты, которые отражают ожидаемые или хотя бы обоснованные отношения между каждой независимой переменной и зависимой переменной
  • Содержит независимые переменные, которые описывают различные аспекты моделируемого явления (нет избыточности, значения VIF меньше 7,5)
  • Содержит нормально распределенные невязки, указывающее на то, что модель не смещена (p-значение Жака-Бера не является статистически значимым)
  • Содержит произвольно распределенные переоценки и недооценки, указывающие на нормальное распределение невязок модели (p-значение пространственной корреляции не является статистически значимым)

При указании выходной таблицы результатов модели, соответствующие значению параметра Максимальный порог значения VIF (Maximum VIF Value Cutoff) и для которых все независимые переменные соответствуют значению параметра Максимальный порог p-значения коэффициента (Maximum Coefficient p value Cutoff), будут записаны в эту таблицу. Данная таблица полезна, если требуется изучить не только модели, включенные в текстовый файл отчета.

Предосторожности

Помните, что, как и при применении пошаговой регрессии, использование инструмента Исследовательская регрессия (Exploratory Regression) противоречиво. С небольшим преувеличением можно сказать, что существует два направления: точка зрения научного метода и точка зрения специалиста по анализу данных.

Точка зрения научного метода

Сторонник научного метода может возражать против применения моделей исследовательской регрессии. С их точки зрения необходимо формализовать гипотезы перед изучением данных, чтобы не создать модели, которые подходят только для ваших данных, а не отражают общие процессы. Создание моделей, подходящих для одного конкретного набора данных, может быть никак не связано с другими наборами данных. Иногда даже добавление новых наблюдений сделает модель нестабильной (может ухудшиться производительность или же коэффициенты независимых переменных могут перестать быть значимыми). Если модель ненадежная даже для новых наблюдений, она точно не опишет ключевые процессы, которые вы пытаетесь моделировать.

Кроме того, помните, что регрессионная статистика основана на теории вероятности, а при запуске тысяч моделей вы значительно увеличиваете шансы на неправильное отклонение нулевой гипотезы (статистическая ошибка типа 1). Например, если вы выбираете уровень уверенности 95 процентов, вы действуете с определенным риском. Если бы вы могли повторно получить данные 100 раз, то по теории вероятности 5 из этих 100 образцов дадут ложно положительные результаты. P-значения вычисляются для каждого коэффициента. Нулевая гипотеза предполагает, что коэффициент фактически равен нулю и, следовательно, независимая переменная, связанная с ним, не может объяснить вашу модель. Теория вероятности говорит, что в 5 случаях из 100 p-значение может быть статистически значимым только потому, что вы выбрали наблюдения, которые ложно поддерживают это заключение. При запуске только одной модели уровень уверенности 95 процентов кажется консервативным. При увеличении числа моделей вы уменьшаете свои возможности делать выводы на основе результатов. Инструмент Исследовательская регрессия (Exploratory Regression) может опробовать тысячи моделей всего за несколько минут. Число опробованных моделей указывается в разделе Глобальная сводка (Global Summary) выходного файла отчета.

Точка зрения специалиста по анализу данных

Исследователи направления анализа данных, с другой стороны, считают, что невозможно заранее знать все факторы, влияющие на любой практический результат. Часто мы пытаемся ответить на сложные вопросы, а теория для определенной области может не существовать или быть устаревшей. Специалисты по анализу данных — сторонники индуктивного анализа, который выполняет исследовательская регрессия. Они поощряют нестандартное мышление и использование исследовательской регрессии для разработки гипотез.

Рекомендации

По нашему мнению правильно используемый инструмент Исследовательская регрессия (Exploratory Regression) — это ценное средство анализа данных, которое позволяет найти правильную модель OLS. Мы рекомендуем всегда выбирать потенциальные независимые переменные исследовательской регрессии, обоснованные теорией, мнениями экспертов и здравым смыслом. Калибруйте модели регрессий, используя часть данных, и проверяйте их на оставшихся данных или дополнительных наборах данных. Если вы планируете сделать выводы на основе результатов, как минимум, потребуется выполнить анализ чувствительности, такой как самонастройка.

У использования инструмента Исследовательская регрессия (Exploratory Regression) есть преимущества по сравнению с другими методами, которые оценивают только скорректированные значения R2. Инструмент Исследовательская регрессия (Exploratory Regression) ищет модели, которые проходят все диагностические тесты OLS, описанные выше.