7.机器学习之线性回归算法

程序员文章站 2022-06-19 10:29:15

什么是线性回归(Linear Regression) 我们在初中可能就接触过，y=ax，x为自变量，y为因变量，a为系数也是斜率。如果我们知道了a系数，那么给我一个x，我就能得到一个y，由此可以很好地为未知的x值预测相应的y值。在只有一个变量的情况下，线性回归可以用方程：y = ax+b 表示；多元 ......

什么是线性回归(linear regression)

我们在初中可能就接触过，y=ax，x为自变量，y为因变量，a为系数也是斜率。如果我们知道了a系数，那么给我一个x，我就能得到一个y，由此可以很好地为未知的x值预测相应的y值。在只有一个变量的情况下，线性回归可以用方程：y = ax+b 表示；多元线性回归方程可以表示为：y = a0 + a1*x1 + a2*x2 + a3*x3 + ...... +an*xn。

机器学习的实质说白了就是通过数据之间的关系找出某种映射 $f : x \to y$ 回归模型就是表示从输入变量到输出变量之间映射的函数，回归问题的学习等价于函数拟合：选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

线性回归的表示是一个方程，它描述了一条线，通过寻找输入变量系数(b)的特定权重，拟合输入变量(x)和输出变量(y)之间的关系。

例如：y=b0+b1∗x，我们将在给定输入x的情况下预测y，线性回归学习算法的目标是找到系数b0和b1的值。可以使用不同的技术从数据中学习线性回归模型，如普通最小二乘的线性代数解和梯度下降优化。

线性回归的模型函数

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。多元线性回归模型如下（n=1，表示的是一元一次方程）：

7.机器学习之线性回归算法

默认x0总是等于1，表达式也可以写成：

7.机器学习之线性回归算法

进一步用矩阵形式表达更加简洁如下：

7.机器学习之线性回归算法

其中 7.机器学习之线性回归算法，，。

线性回归的损失函数

得到了模型，我们要根据已知数据集，在假设空间中，选出最合适的线性回归模型。这时，就要引出损失函数。即找出使损失函数最小的向量θ。线性回归的目的就是求解出合适的θ。损失函数（有时也被成为代价函数）：是用来估量你模型的预测值 f(x)与真实值 y的不一致程度，损失函数越小，模型的效果就越好。线性回归中，损失函数用均方误差表示，因此损失函数就是我们寻找最佳模型的一种依据。在线性回归这里，对应的就是找出最符合数据的权重参数 θ→,即[θ0,θ1,...,θn]t。一般线性回归我们用均方误差（msn）作为损失函数。损失函数的代数法表示如下：

7.机器学习之线性回归算法

我们并不关系损失函数的最小值是多少，而仅仅关心损失函数最小时的模型参数的值即可，也可写成如下所示(公式里的1/2对损失函数没有影响，只是为了能抵消求导后的乘数2)：

7.机器学习之线性回归算法

进一步用矩阵形式表达损失函数：

7.机器学习之线性回归算法

由于矩阵法表达比较的简洁，后面我们将统一采用矩阵方式表达模型函数和损失函数。

线性回归中，损失函数用均方误差表示的证明过程，可以看博客的 "线性回归的损失函数" 部分介绍。

线性回归的算法

现在，我们的目标就成了求解向量θ使得j(θ)最小。我们常用的有两种方法来求损失函数最小化时候的 $θ$ $θ$ 梯度下降法，是搜索算法，先给 θ 赋个初值，然后再根据使 j(θ) 更小的原则对 θ 进行修改，直到最小 θ 收敛，j(θ) 达到最小，也就是不断尝试；另外一种是正规方程法，要使 j(θ) 最小，就对 θ 求导，使导数等于 0，求得 θ。

如果采用梯度下降法，则 $θ$

通过若干次迭代后，我们可以得到最终的 $θ θ的结果$

如果采用最小二乘法，则 $θ 的结果公式如下：$

7.机器学习之线性回归算法

梯度下降法的算法可以有代数法和矩阵法（也称向量法）两种表示，同样最小二乘法也有矩阵法和代数法两种表示。详细证明过程可以参考下面两篇博客内容：

最小二乘法 vs 梯度下降法：

通过上面推导，我们不难看出，二者都对损失函数的回归系数进行了求偏导，并且所得到的推导结果是相同的，那么究竟哪里不同呢？如果仔细观察，可以观察到：最小二乘法通过使推导结果等于0，从而直接求得极值，而梯度下降则是将推导结果带入迭代公式中，一步一步地得到最终结果。简单地说，最小二乘法是一步到位的，而梯度下降是一步步进行的。因而通过以上的异同点，总结如下：

最小二乘法：

得到的是全局最优解，因为一步到位，直接求极值，因而步骤简单
线性回归的模型假设，这是最小二乘方法的优越性前提，否则不能推出最小二乘是最佳（即方差最小）的无偏估计
相比梯度下降，当n不是很大时，最小得到结果更快一些，一般线性回归问题更偏向运用最小二乘法，但是梯度下降法在机器学习中适用范围更大

梯度下降法：

得到的是局部最优解，因为是一步步迭代的，而非直接求得极值
既可以用于线性模型，也可以用于非线性模型，没有特殊的限制和假设条件
梯度下降算法有时需要我们对特征值进行适当的缩放，提高求解效率，需要进行数据归一化处理
梯度下降算法需要我们自己选择适当的学习率α ，且需要多次的迭代运算
当n很大时，这时矩阵运算的代价就变的很大，最小二乘求解也会变的很慢，所以梯度下降更适合特征变量很多的情况，一般n小于10000时，选择正规方程是没问题的

线性回归的正则化

为了解决过拟合问题，在损失函数中引入了正则化。我们常用的正则化一般是l1正则化和l2正则化。而线性回归因为引入的正则化项不同，从而出现了ridge回归、lasso回归以及elasticnet回归。

l1正则化lasso回归：

线性回归的l1正则化通常称为lasso回归，它和一般线性回归的区别是在损失函数上增加了一个l1正则化的项，l1正则化的项有一个常数系数 $α来调节损失函数的均方差项和正则化项的权重，具体lasso回归的损失函数表达式如下：$

7.机器学习之线性回归算法

其中 $n 为样本个数， α为常数系数，需要进行调优。 | θ | 1 为l1范数。$ lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。关于求解，因为 $l_{1}$ lasso回归的求解办法一般有坐标轴下降法（coordinate descent）和最小角回归法（ least angle regression）。

l2正则化ridge回归：

l2正则化通常称为ridge回归，它和一般线性回归的区别是在损失函数上增加了一个l2正则化的项，和lasso回归的区别是ridge回归的正则化项是l2范数，而lasso回归的正则化项是l1范数。具体ridge回归的损失函数表达式如下：

其中 $α为常数系数，需要进行调优。 | θ | 2 为l2范数。$ ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和lasso回归比，这会使得模型的特征留的特别多，模型解释性差。ridge回归的求解比较简单，一般用最小二乘法。这里给出用最小二乘法的矩阵推导形式，和普通线性回归类似。

正则化之后的损失函数求解过程推荐参考博客：

正则化求解之后的理解：

岭回归就是给模型参数加一个惩罚项，限制参数的大小。通过引入该惩罚项，可以减少不重要的参数，这个技术在统计学中也叫做缩减（shrinkage）。（岭回归解决数据的输入变量数目比样本点还多的问题）。岭回归的本质是给参数增加了一个限制条件，即惩罚项，岭回归相当于增加了如下的约束：

$\sum_{j=1}^{n}\theta_j^2 \leq \lambda$

上式限定了所有回归系数的平方和不能大于 $\lambda$ 。所以在岭回归中，有时称为“l2回归”，惩罚因子是变量系数的平方值之和。惩罚因子缩小了自变量的系数，但从来没有完全消除它们。这意味着通过岭回归，您的模型中的噪声将始终被您的模型考虑在内。与岭回归类似，另一个缩减方法lasso也对回归系数做了限定，对应的约束条件如下：

7.机器学习之线性回归算法

当 $\lambda$ 足够小时，一些系数会因此缩减到0，这个特性帮助我们更好的理解数据，但是这个变化却导致计算复杂度大大提升，因为求解这个约束条件下的回归系数，需要使用二次规划算法。lasso模型可以用来估计“稀疏参数”。在某些情况下lasso非常有用，由于它的惩罚条件比较严格，所以倾向于选择参数值较少的解，从而有效地减少了给定解所依赖的参数的数量。简单说，如果你想要的最优解包含的参数数量越少越好，那么使用lasso是个很好的选择。例如当你想从噪声和信号的叠加中得到信号时。

在lasso正则化中，只需惩罚高系数特征，而不是惩罚数据中的每个特征。此外，lasso能够将系数一直缩小到零。这基本上会从数据集中删除这些特征，因为它们的“权重”现在为零（即它们实际上是乘以零）。通过lasso回归，模型有可能消除大部分噪声在数据集中。这在某些情况下非常有用！

elasticnet回归：
elasticnet回归是对lasso回归和岭回归的一个综合，它的惩罚项是l1范数和l2范数的一个权衡。损失函数为：
7.机器学习之线性回归算法

其中，α和ρ均为超参数，α≥0，1≥ρ≥0。而ρ影响的是性能下降的速度，因为这个参数控制着两个正则化项之间的比例。

不同正则化之间的比较：

lasso回归（缩减系数）：可以使得一些特征系数变小，甚至一些绝对值较小的系数直接变为零，从而增强模型的泛化能力。因此很适合与参数数目缩减与参数的选择，作为用来估计稀疏参数的线性模型。当进行模型选择的时候，如果特征特别多，需要进行压缩时，就可以选择lasso回归。
ridge回归（平滑系数）：是在不抛弃任何一个特征的情况下，限制（缩小）了回归系数，使得模型相对而言比较复杂。和lasso回归相比，这会使得模型保留的特别多，导致解释性差。
elasticnet回归：则是对上面两个进行了权衡。实际上，l1l1正则项可以得到稀疏的θ⃗ θ→,l2l2正则项则可以得到比较小的θ⃗ θ→，elasticnet回归就是将这两个结合着用。

总结：

最简单的单变量线性回归： 7.机器学习之线性回归算法

多变量线性回归模型： 7.机器学习之线性回归算法

多项式回归模型： 7.机器学习之线性回归算法

线性回归的优点：

1. 建模速度快，不需要很复杂的计算，在数据量大的情况下依然运行速度很快；
2. 可以根据系数给出每个变量的理解和解释；
3. 对异常值很敏感。

线性回归的缺点：

1. 不能很好的拟合非线性数据，所以需要先判断变量之间是否线性相关。

多项式回归的特点：

1. 能够拟合非线性可分的数据，更加灵活的处理复杂的关系
2. 因为需要设置变量的指数，所以它是完全控制要素变量的建模

多项式回归的特点：

1. 需要一些数据的先验知识才能选择最佳指数
2. 如果指数选择不当容易出现过拟合

参考文章：

上一篇： python中多线程与多进程中的数据共享问题

下一篇：大话设计-简单工厂

7.机器学习之线性回归算法

什么是线性回归(linear regression)

线性回归的模型函数

线性回归的损失函数

线性回归的算法

线性回归的正则化

总结：

Python机器学习之scikit-learn库中KNN算法的封装与使用方法

python实现机器学习之多元线性回归

机器学习-线性回归

python机器学习之KNN分类算法

C / C ++ 基于梯度下降法的线性回归法（适用于机器学习）

PHP实现机器学习之朴素贝叶斯算法详解

机器学习个人笔记——（二）线性回归，最小二乘法和梯度下降

机器学习经典算法-logistic回归代码详解

Python数据拟合与广义线性回归算法学习

常见面试之机器学习算法思想简单梳理