Что вам не говорят о регрессионном анализе

Регрессионный анализ используется для понимания, моделирования, прогнозирования и объяснения сложных явлений. Он помогает ответить на такие вопросы, как "Почему в США есть города, в которых оценки по тестам намного больше средних по стране?" и "Почему существуют области в городе с высоким уровнем грабежей домов?" Вы можете использовать регрессионный анализ, например, для объяснения ожирения среди детей с помощью набора связанных переменных, таких как доход, образование и доступность здоровой пищи.

Обычно регрессионный анализ позволяет ответить на эти вопросы и принять соответствующие меры. Если, например вы обнаружите, что степень ожирения среди детей меньше в школах, в которых на обед подаются свежие фрукты и овощи, вы сможете использовать эту информацию для принятия решений о программах питания в школах. Аналогично, если знать переменные, описывающие высокий уровень преступлений, можно прогнозировать будущие преступления и более эффективно выделять ресурсы для их предотвращения.

Вот, что вам говорят о регрессионном анализе.

А не говорят о нем то, что не всегда получается легко найти набор независимых переменных, с помощью которых можно ответить на ваши вопросы или объяснить сложное явление, которое вы пытаетесь смоделировать. Ожирение среди детей, уровень преступности, школьные оценки и почти все, что вы захотите смоделировать с помощью регрессионного анализа — это все очень сложные явления, которые редко дают простые ответы. Если вы пытались создать собственную модель регрессии, вы и сами это знаете.

К счастью, при запуске инструмента регрессии Обобщенная линейная регрессия (ОЛР) вы получаете набор средств диагностики, позволяющих узнать, правильно ли вы настроили модель, которой можно доверять. В данном документе описываются и объясняются шесть проверок, которые необходимо пройти, чтобы быть уверенным в своей модели. Эти проверки и методы, которые можно использовать для решения распространенных задач регрессионного анализа — это ресурсы, которые действительно могут значительно облегчить вашу работу.

Подсказка:

Осознав информацию, представленную далее, вы можете решить использовать инструмент Исследовательская регрессия для поиска модели, соответствующей всем требованиям метода наименьших квадратов.

Начало работы

Выбор переменной, которую требуется изучить, спрогнозировать или смоделировать — это ваша первая задача. Эту переменную называют зависимой переменной. Ожирение среди детей, уровень преступности, школьные оценки – это зависимые переменные, моделируемые в примерах, приведенных ранее.

Затем необходимо решить, какие факторы могут объяснить вашу зависимую переменную. Такие переменные называют независимыми. В примере с ожирением среди детей независимыми переменными могут быть доход, образование и доступность здоровой пищи. Вам нужно провести собственные исследования, чтобы определить все существенные независимые переменные. Изучите теорию и существующую литературу, поговорите с экспертами и всегда полагайтесь на здравый смысл. Предварительные исследования значительно повышают ваши шансы найти хорошую модель.

После выбора зависимых и независимых переменных вы можете приступать к анализу. Всегда начинайте анализ с использования инструмента Обобщенная линейная регрессия или Исследовательская регрессия, так как они выполняют важные диагностические проверки и позволяют понять, нашли ли вы нужную модель или вам необходимо далее подбирать параметры.

Инструмент ОЛР создает несколько выходных объектов, в том числе карту невязок регрессии и итоговый отчет. На карте невязок регрессии отображаются вычисленные по модели результаты выше и ниже ожидаемых. Анализ этой карты – важный шаг при поиске хорошей модели. Итоговый отчет, в основном, числовой и содержит данные обо всех диагностических методах, используемых при прохождении шести проверок, описанных далее.

Выходные данные инструмента ОЛР
Выходные данные инструмента ОЛР включают итоговый отчет и карту невязок.

Проверка 6 показателей

Проверка 1. Помогают ли эти независимые переменные моей модели?

Изучив теорию и существующие исследования, вы получите набор потенциальных независимых переменных. Для каждой переменной могут существовать понятные причины для включения в модель. Но после запуска модели вы обнаружите, что некоторые независимые переменные являются статистически значимыми, а другие – нет.

Как узнать, какие независимые переменные являются статистически значимыми? Инструмент ОЛР вычисляет коэффициент для каждой независимой переменной в модели и выполняет статистический тест, чтобы определить, помогает ли эта переменная модели или нет. Статистический тест вычисляет вероятность того, что значение коэффициента фактически равно нулю. Если коэффициент равен нулю (или очень близок к нему), связанная независимая переменная не помогает вашей модели. Если, с другой стороны, статистический тест возвращает малую вероятность (p-значение) для определенной независимой переменной, это указывает, что коэффициент вряд ли будет равен нулю (вероятность этого мала). Если вероятность меньше 0,05, звездочка рядом с вероятностью в отчете ОЛР указывает, что связанная независимая переменная важна для вашей модели (другими словами, ее коэффициент статистически значим с уровнем уверенности 95%). Итак, вы ищете независимые переменные, связанные со статистически значимыми вероятностями (ищите переменные со звездочками).

Инструмент ОЛР вычисляет вероятность и устойчивую вероятность для каждой независимой переменной. При обработке пространственных данных отношения, моделируемые в области изучения, часто изменяются. Эти отношения называют нестационарными. При наличии нестационарных отношений можно доверять только устойчивым вероятностям при оценке статистической значимости независимой переменной.

Как узнать, являются ли отношения в вашей модели нестационарными? В итоговый отчет ОЛР включен еще один статистический тест, статистика Кенкера (стьюдентизированная Кенкером статистика Бреуша-Пагана). Звездочка рядом с p-значением Кенкера указывает на то, что моделируемые отношения содержат статистически значимую нестационарность, поэтому следует принять во внимание устойчивые вероятности.

Диагностика Кенкера
Когда p-значение Кенкера статистически значимо (отмечено звездочкой), вы можете доверять только устойчивым вероятностям.

Обычно независимые переменные удаляются из модели, если не являются статистически значимыми. Однако, если теория говорит, что переменная очень важна, или определенная переменная является стержнем для вашего анализа, вы можете сохранить ее, даже если она статистически не значима.

Примечание:

В процессе поиска корректной модели ОЛР вы, скорее всего, опробуете различные независимые переменные. Помните, что коэффициенты независимых переменных (и их статистическая значимость) могут радикально изменяться в зависимости от переменных, включенных в модель.

Проверка 2. Соответствуют ли отношения ожиданиям?

Важно не только определить, помогает ли независимая переменная вашей модели, но и также проверить знак (+/-), связанный с каждым коэффициентом, чтобы отношения соответствовали вашим ожиданиям. Знак коэффициента независимой переменной определяет, являются ли отношения положительными или отрицательными. Предположим, вы моделируете уровень преступности, и одна из независимых переменных — это средний доход в районе. Если коэффициент переменной дохода отрицательный, это значит, что уровень преступности уменьшается при увеличении дохода в районе (отрицательные отношения). Если вы моделируете ожирение среди детей и у переменной доступности фастфуда положительный коэффициент, это означает, что степень ожирения увеличивается при повышенном доступе к фастфуду (положительные отношения).

При создании списка потенциальных независимых переменных необходимо для каждой из них включить ожидаемые отношения (положительные или отрицательные). Следует также не доверять моделям с отношениями, не соответствующими теории и здравому смыслу. Предположим, вы создаете модель для прогнозирования частоты лесных пожаров, а ваша модель регрессии вернула положительный коэффициент для переменной осадков. Вероятно, не следует ждать увеличения числа лесных пожаров с большим количеством дождей.

Непредвиденные знаки коэффициентов часто указывают на другие проблемы вашей модели, которые будут проявляться при продолжении проверок. Знаку и значению коэффициентов независимых переменных можно доверять, только если модель пройдет все шесть проверок. Если модель прошла все проверки с непредвиденным знаком коэффициента, возможно, вы сможете обнаружить какую-то новую закономерность. Может быть, что между частотой лесных пожаров и уровнем осадком имеют место положительные отношения, так как основным источником пожаров в изучаемой области являются молнии. Может быть полезным получить данные о молниях для вашей области изучения, чтобы посмотреть, улучшит ли это работу модели.

Проверка 3. Являются ли какие-либо независимые переменные избыточными?

При выборе независимых переменных для анализа ищите переменные, которые описывают различные аспекты моделируемого явления и избегайте переменные, содержащие одну и ту же информацию. Например, если вы моделируете характеристики домов, не следует одновременно включать независимые переменные для площади дома и числа спален. Обе эти переменные связаны с размером дома, а применение обеих переменных может сделать модель нестабильной. По большому счету, нельзя доверять модели с избыточными переменными.

Как узнать, если две или более переменных являются избыточными? К счастью, если у вас больше двух независимых переменных, инструмент ОЛР вычисляет Фактор увеличивающий дисперсию (VIF) для каждой из них. Значение VIF – это измерение избыточности переменной, которое помогает решить, какие переменные можно удалить из модели без ухудшения силы модели. Как правило, значение VIF выше 7.5 указывает на проблему с переменной. Если у вас есть две или более переменных со значением VIF больше 7.5, удалите их по одной и запустите МНК еще раз до устранения избыточности. Помните, что не следует удалять все переменные с высоким значением VIF. В примере моделирования характеристик домов, у площади дома и числа спален будут высокие значения VIF. После удаления одной из этих переменных избыточность будет устранена. Важно включить в анализ переменную, отражающую размер дома. Но не следует моделировать этот аспект избыточными переменными.

Проверка 4. Является ли моя модель смещенной?

Это может казаться сложным вопросом, но ответ довольно прост. В правильно настроенной модели ОЛР невязки модели (прогнозируемые значения выше и ниже ожидаемых) распределены нормально со средним числом, равным нулю (график в виде колокола). Если модель смещена, распределение невязок не сбалансировано, как показано ниже. Вы не можете полностью доверять прогнозируемым результатам, если модель смещена. К счастью, существует несколько способов устранения этой проблемы.

Нормальные и асимметричные распределения

Статистически значимая диагностика Жака-Бера (ищите звездочку), указывает на то, что модель смещена. Иногда модель хорошо работает с малыми значениями и плохо с большими (или наоборот). В примере с ожирением среди детей это означает, что в местах с малой степенью ожирения модель работает хорошо, а в областях с высокой степенью ожирения, прогнозируемые результаты неточны. Смещение модели может возникать из-за выбросов данных, влияющих на оценку модели.

Чтобы понять, каким образом можно устранить смещение модели, создайте матрицу точечной диаграммы для всех переменных модели. Нелинейные отношения между зависимой переменной и одной из независимых переменных часто приводят к смещению модели. В матрице точечной диаграммы эти отношения имеют вид кривой. Линейные отношения выглядят как прямые диагональные линии.

Искривленные отношения

Если между зависимой переменной и одной из независимых переменных существуют нелинейные отношения, вам нужно проделать определенную работу. ОЛР – это метод линейной регрессии, предполагающий, что вы моделируете линейные отношения. Если отношения нелинейные, вы можете попробовать преобразовать переменные, чтобы создать более линейные отношения. К распространенным преобразованиям относятся логарифмическое и экспоненциальное. Если некоторые независимые переменные сильно искажены, можно попробовать устранить смещение модели, выполнив и их преобразование.

Преобразования

Матрица точечной диаграммы также показывает выбросы данных. Чтобы увидеть, влияет ли выброс на модель, попробуйте запустить инструмент Обобщенная линейная регрессия (ОЛР) с выбросами и без них, чтобы увидеть, насколько меняется производительность модели и устраняется ли ее смещение. В некоторых случаях (особенно когда вы думаете, что выбросы представляют некорректные данные) вы сможете удалить выбросы из анализа.

Выброс данных

Проверка 5. Найдены ли все ключевые независимые переменные?

Зачастую вы приступаете к анализу с гипотезами о том, какие переменные будут важными предикторами. Возможно, вы считаете, что 5 определенных переменных позволят получить хорошую модель, или у вас есть список из 10 переменных, которые могут быть связаны. Важно использовать гипотезы при анализе, но также важно и позволить вашей интуиции выходить за рамки гипотез. Не пытайтесь ограничиться исходным списком переменных и попробуйте учесть все возможные переменные, которые могут повлиять на моделируемое явление. Создайте тематические карты каждой из потенциальных независимых переменных и сравните их с картой зависимых переменных. Прочтите соответствующие источники. Позвольте вашей интуиции найти взаимосвязи в отображенных данных. Попробуйте сформировать наибольшее число потенциальных пространственных переменных, таких как расстояние от центра города, близость к основным магистралям или доступ к крупным водоемам. Такие типы переменных будут особенно важны для анализа, если вы считаете, что географические процессы влияют на отношения в ваших данных. Если вы не найдете полный набор независимых переменных, которые эффективно опишут структуру ваших данных в зависимой переменной, в вашей модели не будет важных независимых переменных и вы не сможете пройти все описанные в этой статье проверки.

Свидетельством того, что одна или несколько независимых переменных отсутствуют в модели, служит статистически значимая пространственная автокорреляция невязок вашей модели. В регрессионном анализа проблемы с пространственно автокоррелированными невязками обычно принимают форму кластеризации: переоценки объединяются друг с другом, а недооценки — друг с другом. Как узнать, имеется ли статически значимая пространственная автокорреляция среди невязок модели? Запустите инструмент Пространственная автокорреляция для невязок регрессии, чтобы узнать о наличии проблем с пространственной автокорреляцией. Статистически значимое z-значение указывает на то, что в модели отсутствуют важные независимые переменные.

Поиск этих независимых переменных — это одновременно и искусство, и наука. Попробуйте использовать следующие стратегии:

Изучите карту невязок ОЛР

Стандартные выходные данные инструмента Обобщенная линейная регрессия – карта невязок модели. Темно-фиолетовые области – местоположения, где реальные значения (вашей зависимой переменной) выше прогнозируемых в модели. Темно-синие области – местоположения, где реальные значения ниже прогнозируемых в модели. Иногда просто посмотрев на карту невязок, можно понять, какой переменной недостает. Если вы заметили, что в городских областях прогнозы постоянно выше ожидаемых, вы можете добавить переменную, отражающую расстояние от городских центров. Если завышенные прогнозируемые значения связаны с горными вершинами или низинами, возможно, нужно добавить переменную высоты. Видите ли вы региональные кластеры или можете ли выявить тенденции в данных? Если это так, создайте бинарную переменную, чтобы выявить эти региональные различия. Классическим примером бинарной переменной является переменная, отличающая городские и сельские объекты. Назначив всем сельским объектам значение 1, а другим объектам – значение 0, вы сможете сформулировать пространственные отношения, которые могут быть важны для модели. Иногда создание карты горячих точек по невязкам модели помогает отобразить общие региональные закономерности.

Поиск недостающих пространственных переменных не только потенциально улучшает вашу модель, но также помогает взглянуть на моделируемое явление с новых точек зрения.

Примечание:

Хотя и рекомендуется включать бинарные переменные в модель ОЛР, их лучше удалить при запуске инструмента Географически взвешенная регрессия (ГВР), чтобы избежать проблем с локальной мультиколлинеарностью.

Изучение нестационарности

Можно также попробовать запустить инструмент Географически взвешенная регрессия и создать поверхности коэффициентов для каждой из независимых переменных и/или карт локальных значений R2. Выберите хорошо работающую модель ОЛР (с высоким значением R2, которое позволяет пройти все или почти все другие диагностические проверки). Так как инструмент ГВР создает уравнение регрессии для каждого объекта в области изучения, поверхности коэффициентов показывают, как отношения между зависимыми и независимыми переменными изменяются географически. Карта локальных значений R2 отображает вариации в зависимостях модели. Иногда просмотр этих географических вариаций позволяет сформулировать идеи о недостающих переменных: плохая работоспособность модели рядом с основными магистралями, спад на большом расстоянии от побережья, изменение знака коэффициентов рядом с промышленным районом или сильная тенденция с востока на запад — все это подсказки о пространственных переменных, которые могут улучшить модель.

Поверхности коэффициентов, показывающие нестационарность

При изучении поверхностей коэффициентов будьте внимательные с независимыми переменными с коэффициентами, которые меняют знак с плюса на минус. Это важно, так как инструмент ОЛР скорее всего не будет учитывать потенциал этих нестационарных переменных. Рассмотрим, например, взаимосвязь между ожирением среди детей и доступом к здоровой пище. В областях с низким доходом и плохим доступом к автомобилям, большое расстояние до супермаркета является настоящим препятствием для выбора здорового питания. В областях с высоким доходом с лучшим доступом к автомобилям, наличие супермаркета на небольшом расстоянии может быть нежелательным. Расстояние до супермаркета может совсем не мешать покупке здоровой еды. Хотя инструмент ГВР может смоделировать такие типы сложных отношений, ОЛР этого не умеет. ОЛР – это глобальная модель, которая ожидает, что отношения переменных будут непротиворечивыми (стационарными) в пределах области изучения. Когда коэффициенты меняют знак, они отменяют друг друга. Это можно представить себе как выражение (+1) + (-1) = 0. Если вы нашли переменные с коэффициентами, которые радикально меняются, особенно если меняются знаки, следует сохранить их в модели, даже если они статистически не значимы. Такие типы переменных будут эффективны после перехода на ГВР.

Использование инструмента ОЛР с меньшими областями изучения

ГВР – это невероятно полезный инструмент при работе с нестационарными данными, поэтому может возникнуть искушение сразу перейти к ГВР, без поиска правильной модели ОЛР. К сожалению, ГВР не предоставляет такие функции диагностики для определения того, являются ли независимые переменные статистически значимы, имеют ли невязки нормальное распределение или является ли ваша модель работоспособной. ГВР не исправит неправильно заданную модель, если вы не будете уверены в том, что единственной причиной того, что модель ОЛР не проходит проверку шести показателей, является нестационарность данных. Свидетельством нестационарности будут независимые переменные со строгими положительными отношениями в некоторых частях изучаемой области и строгими отрицательными отношениями в других частях. Иногда проблема заключается не в отдельных независимых переменных, а связана с набором независимых переменных, используемых в модели. Может быть так, что один набор переменных формирует лучшую модель для одной части области изучения, а другой набор переменных работает для других частей. Для проверки можно выбрать несколько меньших областей изучения и попробовать использовать модели ОЛР для каждой из них. Выбирайте подобласти в зависимости от процессов, которые, по вашему мнению, могут быть связаны с моделью (области с высоким и низким доходом, старые дома и новые дома). Или же можно выбрать области на основе карты ГВР локальных значений R2. Местоположения с плохими показателями модели лучше смоделировать с другим набором независимых переменных.

Подсказка:

Инструмент Пространственно-ограниченная многофакторная кластеризация может быть очень полезным для выделения подобластей в широкой области изучения.

Если вам удалось найти правильные модели ОЛР в нескольких небольших областях изучения, можно сделать вывод, что дело в нестационарности, и перейти к ГВР с использованием полного набора независимых переменных из всех моделей. Если вам не удалось получить корректные модели в небольших областях, это может быть связано с тем, что вы пытаетесь смоделировать слишком сложное явление, которое нельзя свести к последовательности числовых измерений и линейных отношений. В этом случае необходимо изучить альтернативные методы анализа.

Для всего этого могут потребоваться определенные усилия, но это прекрасный опыт исследовательского анализа данных, который поможет вам лучше понять имеющиеся данные и найти новые переменные. Это поможет даже получить улучшенную модель.

Проверка 6. Как хорошо я описываю зависимую переменную?

Теперь пришло время для оценки производительности модели. Скорректированное значение R2 – это важное измерение того, как хорошо независимые переменные моделируют вашу зависимую переменную. О значении R2 говорят одним из первых при рассказе о регрессионном анализе. Так почему мы оставили эту важную проверку на финал? Вам не говорят о том, что вы не можете доверять значению R2, если вы не прошли все другие проверки, описанные выше. Если модель смещена, она может хорошо работать в некоторых областях или определенном диапазоне значений зависимой переменной, но в других ситуациях она дает неточные показатели. Значение R2 этого не отражает. Аналогично, если имеется пространственная автокорреляция невязок, вы не можете доверять отношениям коэффициентов вашей модели. При наличии избыточных независимых переменных можно получить очень большие значения R2, но модель будет нестабильной. Она не будет отражать истинные отношения, которые вы хотите смоделировать, и может дать совсем другие результаты при добавлении даже небольшой порции новых данных.

После прохождения всех других проверок и выполнения всех необходимых критериев необходимо понять, как модель объясняет значения зависимой переменной за счет оценки скорректированного значения R2. Значения R2 лежат в диапазоне от 0 до 1 и представляют процентное отношение. Предположим, что вы моделируете частоту преступлений и получаете модель, которая прошла все пять предыдущих проверок со скорректированным значением R2, равным 0.65. Это говорит о том, что независимые переменные в модели объясняет 65 процентов вариабельности зависимой переменной, говорящей о частоте преступлений. К скорректированным значениям R2 следует подходить очень субъективно. В некоторых областях науки объяснение 23 процентов сложного явления будет большим достижением. В других сферах значение R2 должно быть равно 80 или 90 процентам, чтобы привлечь чье-то внимание. В любом случае, скорректированное значение R2 позволяет понять, как хорошо работает ваша модель.

Другой важный метод диагностики, позволяющий оценить производительность модели — это скорректированный информационный критерий Акаике (AICc). Значение AICc полезно при сравнении нескольких моделей. Например, требуется смоделировать оценки учеников с помощью различных наборов независимых переменных. В одной модели вы можете использовать только демографические переменные, а в другой — переменные, связанные со школой и классом, например затраты на каждого ученика и отношения числа учителей к числу учеников. Если зависимая переменная для всех сравниваемых моделей одна и та же (в этом случае это оценки учеников), вы можете использовать значения AICc из каждой модели для определения лучшей из них. Модель с меньшим значением AIC лучше соответствует реальным данным.

И не забывайте...

Проходя все эти этапы создания правильной регрессионной модели, помните, что цель вашего анализа — понять ваши данные и использовать эти знания для решения задач и получения ответов на вопросы. Правда в том, что вы можете попробовать несколько моделей (с преобразованными переменными и без них), изучить несколько мелких областей, проанализировать поверхности коэффициентов и все равно не найти правильную модель ОЛР. Но, и это важно, вы все равно будете наращивать объем знаний о моделируемом явлении. Если подобранная модель, которая, как вы думали, будет прекрасным предиктором, оказалась совсем неточной, это очень полезная информация. Если одна из переменных, о которой вы беспокоитесь, будет иметь строгие положительные отношения в одних областях и отрицательные отношения в других областях, то уже и это знание значительно улучшит ваше понимание проблемы. Выполняемая вами работа, попытка найти хорошую модель с помощью ОЛР и затем применение ГВР для изучения региональных вариаций переменных в модели, всегда будет очень ценной.

Дополнительную информацию и обучающие руководства по регрессионному анализу см. https://www.esriurl.com/spatialstats.