线性回归是一种监督机器学习方法,由使用 AutoML 进行训练工具使用,并找到最能描述解释变量与因变量的相关性的线性方程。 这是通过使用最小二乘法根据数据拟合线来实现的。 该线尝试最小化残差的平方和。 残差是线与解释变量实际值之间的距离。 寻找最佳拟合线是一个迭代过程。
以下是生成的线性回归方程的示例:
在上述示例中,y 是因变量,x1、x2 等是解释变量。 系数(b1、b2 等)解释了解释变量与因变量的相关性。 系数的符号 (+/-) 表示变量是正相关还是负相关。b0 是表示因变量值的截距,假设所有解释变量都为 0。
在下图中,线性回归模型由回归线 y = 153.21 + 900.39x 描述。 该模型描述了因变量(糖尿病进展)和解释变量(血清甘油三酯水平)之间的关系。 显示为正相关。 此示例演示了具有两个变量的线性回归模型。 尽管无法可视化具有三个以上变量的模型,但实际上,一个模型可以具有任意数量的变量。
线性回归模型有助于预测因变量的值,还可以帮助解释预测的准确性。 这由 R 平方和 p 值的值表示。 R 平方值表示因变量中有多少变化可以由解释变量解释,而 p 值表示该解释的可靠性。 R 平方值介于 0 和 1 之间。 值为 0.8 意味着解释变量可以解释因变量观测值的 80% 的变化。 值为 1 意味着可以做出完美的预测,这在实践中很少见。 值为 0 意味着解释变量对预测因变量没有任何帮助。 使用 p 值,您可以检验解释变量对因变量的影响是否与 0 显着不同。