ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读
ResNetV2:Identity Mappings in Deep Residual Networks
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Microsoft Research
0. 简介
本文进一步分析了residual building blocks计算传播方式,表明了skip connections 和after-addition activation都是identity mappings,前向和后向的信号能够直接的从一个block 传递到其他任意一个block。所以文中提出了一个新的残差单元,它使得训练变得更简单,同时也提高了网络的泛化能力。
1.Motivation
在ResNet中,对于一个Resdual Unit:
其中有三个很重要的部分,h,f, F:
通过设计unit中的3个重要组成是否可以来提升ResNet的效果。
2. Analysis
如果 f h都是恒等映射的话:
又递推关系:
文中指出这里表明任意层之间都是残差关系,同时与传统神将网络递推公式的对比,这里是一系列的加法,传统神经网络中更多的是矩阵之间的连乘,所以ResNet梯度稳定性更好也可以这样理解。
bp公式:
与正向传播对应,更高层的梯度都可以通过第一项直接传递给更低的层,同时公式中显示了ResNet不可能出现梯度消失的现象。
3. Experiment
exp on h
文中比较了constant scaling、exclusive gating、short-only gating、1*1 conv shortcut以及dropout shortcut来作为h,具体结构如图:
对应的实验结果如下表所示:
- fig2中的不同结构都没有origal效果好,也就是说其他形似的连接方式都会影响信息的传递。其中1*1conv的结果并不没有想ResNetV1中表现的结果那么好。
-
shortcut-only gating 和1×1的卷积涵盖了Identity Mapping的解空间。然而,它们的训练误差比恒等捷径连接的训练误差要高得多,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。
exp on f
文中分析了BN after addition,ReLU before addition,pre-activation方法作为f,研究f对ResNet效果的影响:pre-activation:原来的设计中相加操作后面还有一个ReLU**函数,这个**函数会影响到残差单元的两个分支,现在将它移到残差函数分支上,快捷连接分支不再受到影响。
预**的影响具有两个方面。第一,由于f也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预**中使用BN能够提高模型的正则化。
cifar上的结果
总结
本文可以说是ResultNet的升华,通过大量的对比实验来验证自己的理论推到的正确性,作者把ResNet分成三个部分h(skip connection),f(after-addition activation),F(residual function),ResNet原文对F进行了深入的研究,本文对h与f进行分析讨论,得出了足够简单,有效的结论与实验结果。