lasso 回归 & 岭回归

程序员文章站 2022-05-02 16:35:14

...

岭回归(ridge regression)

回忆 LR 的优化目标

L = (Y - X w) T (Y - X w)

为防止过拟合，增加正则化项 λ||w||2 ，目标函数就变成

L = (Y - X w) T (Y - X w) + λ | | w | | 2

对其进行求导，得到

\partial L \partial w = - 2 X T (Y - X w) + 2 λ w

令导数为0，得

w = (X T X + λ I) - 1 X T Y

这就是岭回归的公式。

岭回归具有以下优点：

在特征数M，而岭回归就可以。
通过引入λ惩罚项，防止过拟合。

Lasso

与岭回归不同，lasso增加的正则化项是 λ||w||1 ，目标函数就变成

L = (Y - X w) T (Y - X w) + λ | | w | | 1

这个细微的变化，极大增加了计算复杂度，因为其不可直接求导。

前向逐步回归(Forward Stagewise Linear Regression)

前向逐步回归的伪代码：

lasso 回归 & 岭回归
相关代码：

datas = []
values = []
with open('abalone','r') as f: 
    for line in f: 
        linedata =  line.split('\t')
        datas.append(linedata[0:-1]) #前4列是4个属性的值
        values.append(linedata[-1].replace('\n',''))  #最后一列是类别       
datas = np.array(datas)
datas = datas.astype(float) 
values = np.array(values)
values = values.astype(float) 

N,M =  datas.shape #N是样本数，M是参数向量的维
means = datas.mean(axis=0) #各个属性的均值
stds = datas.std(axis=0) #各个属性的标准差
datas = (datas-means)/stds #标准差归一化
values = (values-values.mean())/values.std() #标准差归一化


fig,axes = plt.subplots(nrows=2,ncols=2,figsize=(8,8))
plt.suptitle(u'Forward Stepwise Regression Example',fontsize = 18) #用中文会出错，不知为何
plt.subplots_adjust(wspace = 0.25,hspace=0.25)
lambds = [0.05,0.5,1.0,3.0]

axes = axes.flatten()
for i in range(4):
    numIt = 600 #迭代次数
    delta = 0.01 # 调整系数
    wlog = np.zeros((numIt,M)) #记录weights的变化
    weights = np.zeros(M) #系数向量
    lambd = lambds[i]

    for it in range(1,numIt):
        Lmin = {'value':np.inf,'loc':np.nan,'sign':np.nan} #记录本次迭代的目标函数最小值
        for m in range(M-1,0,-1):
            for sign in (-1,1):
                wbak = cp.deepcopy(weights)
                wbak[m] += delta*sign
                Lcur = np.linalg.norm(values-np.dot(datas,wbak),2)+ lambd*np.linalg.norm(wbak,1)
                #print m,sign,Lcur
                if Lmin['value'] > Lcur: # 如果目标函数值比当前最优值小
                    Lmin['value'] = Lcur
                    Lmin['loc'] = m
                    Lmin['sign'] = sign
        weights[Lmin['loc']] += delta*Lmin['sign']
        wlog[it,:] = weights[:]
    ax = axes[i]
    for m in range(M):
        ax.plot(wlog[:,m])  
    ax.set_title('lambda='+np.str(lambd),{'fontname':'STFangsong','fontsize':10})
    ax.set_xlabel(u'迭代次数',{'fontname':'STFangsong','fontsize':10})
    ax.set_ylabel(u'各权值系数',{'fontname':'STFangsong','fontsize':10})
savefig('lasso1.png',dpi=300,bbox_inches='tight')

Lasso Shooting Algorithm

如下求导

\partial L (w) \partial w k = - 2 \sum i = 1 N x i k (y i - w T x i) = - 2 \sum i = 1 N x i k (y i - w k T x i k - (w T x i - w k T x i k)) = w k \cdot 2 \sum i = 1 N x 2 i k - 2 \sum i = 1 N x i k (y i - w T x i + w k x i k)

\frac{\partial L({\bf w})}{\partial {\bf w}_k} = -2\sum_{i=1}^{N}{\bf x}_{ik}\left(y_i-{\bf w}^T{\bf x}_i\right)\qquad\qquad\qquad\qquad\\ \qquad = -2\sum_{i=1}^{N}{\bf x}_{ik}\left(y_i-{\bf w_k}^T{\bf x}_{ik}-\left({\bf w}^T{\bf x}_i-{\bf w_k}^T{\bf x}_{ik}\right)\right)\\

令其中

α k = 2 \sum i = 1 N x 2 i k, c k = 2 \sum i = 1 N x i k (y i - w T x i + w k x i k)

则可写成

\partial L (w) \partial w k = α k \cdot w k - c k

令L(w,λ)=L(w)+λ||w||1

则

\partial L (w, λ) \partial w k = ⎧ ⎩ ⎨ α k \cdot w k - c k - λ [- c k - λ, - c k + λ] α k \cdot w k - c k + λ w k < 0 w k = 0 w k > 0

\begin{eqnarray*} \frac{\partial L(w,\lambda)}{{\partial \bf w}_k}= \begin{cases} \alpha_k\cdot {\bf w}_k-c_k-\lambda \!&{\bf w}_k<0\\ \left[-c_k-\lambda,-c_k+\lambda\right]\!&{\bf w}_k=0 \\ \alpha_k\cdot {\bf w}_k-c_k+\lambda \!&{\bf w}_k>0 \end{cases}
lasso 回归 & 岭回归

进而可得wk的更新公式

w k = ⎧ ⎩ ⎨ (c k + λ) / α k 0 (c k - λ) / α k c k < - λ c k \in [- λ, λ] c k > - λ

\begin{eqnarray*} {\bf w}_k= \begin{cases} \left(c_k+\lambda\right)/\alpha_k \!& c_k<-\lambda\\ 0\!&c_k\in [-\lambda,\lambda] \\ \left(c_k-\lambda\right)/\alpha_k \!&c_k>-\lambda \end{cases}

lasso 回归 & 岭回归

fig,axes = plt.subplots(nrows=2,ncols=2,figsize=(8,8))
plt.suptitle(u'Lasso Shooting Algorithm Example',fontsize = 18) #用中文会出错，不知为何
plt.subplots_adjust(wspace = 0.25,hspace=0.25)
lambds = [0.05,3.5,50,100]
axes = axes.flatten()

for i in range(4):
    lambd = lambds[i]
    numIt = 600 #迭代次数
    wlog = np.zeros((numIt,M)) #记录weights的变化
    weights = np.zeros(M) #系数向量

    XX2 = 2*np.dot(datas.transpose(),datas)
    XY2 = 2*np.dot(datas.transpose(),values)
    for it in range(numIt):
        for k in range(M):
            ck = XY2[k]-np.dot(XX2[k,:],weights)+XX2[k,k]*weights[k]
            ak = XX2[k,k]
            #print ck,lambd
            if ck < -lambd:
                weights[k] = (ck+lambd)/ak
            elif ck > lambd:
                weights[k] = (ck-lambd)/ak
            else:
                weights[k] = 0
        wlog[it,:] = weights[:]
    ax = axes[i]
    for m in range(M):
        ax.plot(wlog[:,m])  
    ax.set_title('lambda='+np.str(lambd),{'fontname':'STFangsong','fontsize':10})
    ax.set_xlabel(u'迭代次数',{'fontname':'STFangsong','fontsize':10})
    ax.set_ylabel(u'各权值系数',{'fontname':'STFangsong','fontsize':10})   
savefig('lasso2.png',dpi=300,bbox_inches='tight')

L1 vs L2

岭回归正则化项是L2约束。
下表展示了L1,L2的区别。
lasso 回归 & 岭回归

L1 具有的特征选择(稀疏性)的作用可以用下图来解释：
左侧的正方形表示L1约束，等高线图与圆上任一点相切的概率相同，故起不到特征选择的效果。
lasso 回归 & 岭回归

上一篇：决策树(Decision Tree)

下一篇：小白求解_html/css_WEB-ITnose

lasso 回归 & 岭回归

岭回归(ridge regression)

Lasso

前向逐步回归(Forward Stagewise Linear Regression)

Lasso Shooting Algorithm

L1 vs L2

Scikit-Learn实现线性回归

老用户回归小米！上手米10 Pro后有感而发：满满都是回忆

PyTorch搭建一维线性回归模型（二）

PyTorch搭建多项式回归模型（三）

pytorch使用Variable实现线性回归

python实现K近邻回归,采用等权重和不等权重的方法

Lumia时代圆形镜头回归诺基亚7.2曝光：或亮相IFA

疑似iPhone 9上手视频曝光：回归iPhone 4造型

matlab中如何应用regress()函数进行线性回归分析？

Python scikit-learn 做线性回归的示例代码

lasso 回归 & 岭回归

岭回归(ridge regression)

Lasso

前向逐步回归(Forward Stagewise Linear Regression)

Lasso Shooting Algorithm

L1 vs L2

Scikit-Learn实现线性回归

老用户回归小米！上手米10 Pro后有感而发：满满都是回忆

PyTorch搭建一维线性回归模型（二）

PyTorch搭建多项式回归模型（三）

pytorch使用Variable实现线性回归

python实现K近邻回归,采用等权重和不等权重的方法

Lumia时代圆形镜头回归 诺基亚7.2曝光：或亮相IFA

疑似iPhone 9上手视频曝光：回归iPhone 4造型

matlab中如何应用regress()函数进行线性回归分析？

Python scikit-learn 做线性回归的示例代码

Lumia时代圆形镜头回归诺基亚7.2曝光：或亮相IFA