Pytorch实现L1与L2正则化
程序员文章站
2022-07-13 10:38:04
...
关于Pytorch如何实现正则化在这篇博客《pytorch实现L2和L1正则化regularization的方法》其实已经给出了差不多正确的方法,但是这篇博客的代码在实现L2正则的时候是有一点小问题的。
首先看一下L2正则的公式:
L o s s = C L + λ 2 ∑ w i 2 Loss = CL+\frac{\lambda}{2} \sum w_{i}^{2} Loss=CL+2λ∑wi2
其中
C
L
CL
CL就是正常的损失(比如交叉熵损失)。实际上在Pytorch中,当你使用SGD的时候,其中的一个参数weight_decay
其实就是L2正则的
λ
\lambda
λ系数,只不过Pytorch用了一种取巧的方法,实际的loss不会把L2损失计算进去,而是在梯度回传的时候通过在原先的梯度上面加上
λ
w
i
\lambda w_{i}
λwi来实现一种等价的L2正则。如下面的源码所示:
for p in group['params`]:
if p.grad is None:
continue
d_p = p.grad.data
if weight_decay != 0:
d_p.add_(weight_decay, p.data)
所以如果我们想显式地在损失中显示L2损失,就可以把SGD中的weight_decay
置为0,然后再自己实现L2正则。还是参考前面提到的博客给出的实现方式,但是前面那篇博客在实现L2正则的时候用的L2范数即torch.norm(w, p=2)
,而这个其实是有问题的,因为L2范数其实是
∑
w
i
2
\sqrt{\sum w_{i}^{2}}
∑wi2
,跟我们要的不是一个东西,所以我重写了一下:
def regularization_loss(self, weight_list_l1, weight_list_l2):
reg_loss = 0
loss1, loss2 = 0, 0
for name, w in weight_list_l1:
loss1 += torch.sum(torch.abs(w))
for name, w in weight_list_l2:
loss2 += torch.sum(torch.pow(w, 2))
reg_loss = self.weight_decay_l1*loss1 + self.weight_decay_l2/2*loss2
return reg_loss
需要说明的是我这里还实现了L1正则,可以实现对部分参数用L1正则,对另一部分用L2正则,然后对剩下的参数不用任何正则化(因为一般我们对BN层跟bias是不用正则化的,但是SGD的默认实现会对所有参数都施加L2正则化)。