Линейная регрессия - это контролируемый метод машинного обучения, который используется инструментом Обучение с использованием AutoML и находит линейное уравнение, лучше всего описывающее корреляцию зависимых переменных с независимыми. Это достигается путем вписывания линии в данные с помощью метода наименьших квадратов. Линия старается минимизировать сумму квадратов невязок. Невязка представляет собой расстояние между линией и текущим значением независимой переменной. Поиск наиболее подходящей линии - это итеративный процесс.
Ниже приведен пример итогового уравнения линейной регрессии.

В примере выше y - это зависимая переменная, а x1, x2 и т.п. - это независимые переменные. Коэффициенты (b1, b2 и т.п.) объясняют корреляцию зависимых и независимых переменных. Знак коэффициентов (+/-) определяет, какое именно влияние оказывает переменная - положительное или отрицательное. b0 - это точка пересечения, которая указывает значение зависимой переменной, предполагая, что все независимые переменные равны 0.
На рисунке ниже модель линейной регрессии описывается линией регрессии y = 153.21 + 900.39x. Модель описывает отношение между зависимой переменной, Прогрессированием диабета, и независимой переменной, Уровнем триглицеридов в сыворотке. Показано положительное влияние. Этот пример демонстрирует модель линейной регрессии с двумя переменными. Хотя невозможно визуализировать модели с более чем тремя переменными, на практике модель может иметь любое количество переменных.

Модель линейной регрессии помогает прогнозировать значение зависимой переменной, а также может помочь объяснить, насколько точен прогноз. Это определяется значениями параметров R-квадрат и p-значение. Значение R-квадрат указывает, какая часть вариации зависимой переменной может быть объяснена независимой переменной, а p-значение объясняет, насколько надежно это объяснение. Значения R-квадрата варьируются между 0 и 1. Значение 0,8 означает, что независимая переменная может объяснить 80 процентов вариации наблюдаемых значений зависимой переменной. Значение 1 означает, что можно сделать идеальный прогноз, что редко встречается на практике. Значение 0 означает, что независимая переменная совсем не помогает в прогнозировании зависимой переменной. Используя p-значение, вы можете проверить, насколько сильно независимая переменная влияет на зависимую по сравнению с 0.