欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

程序员文章站 2024-03-15 11:35:17
...

ResNetV2:Identity Mappings in Deep Residual Networks

作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

                               Microsoft Research

[pdf] [github]


0. 简介

本文进一步分析了residual building blocks计算传播方式,表明了skip connections 和after-addition activation都是identity mappings,前向和后向的信号能够直接的从一个block 传递到其他任意一个block。所以文中提出了一个新的残差单元,它使得训练变得更简单,同时也提高了网络的泛化能力。

1.Motivation

在ResNet中,对于一个Resdual Unit:
ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读
其中有三个很重要的部分,h,f, F:

h(Xl)=XlfReLUF

通过设计unit中的3个重要组成是否可以来提升ResNet的效果。

2. Analysis

h(xl)f(yl)

yl=h(xl)+F(xl,Wl)

xl+1=f(yl).

如果 f h都是恒等映射的话:
xl+1=xl+F(xl,Wl)

又递推关系:
xL=xl+i=lLF(xi,Wi)

文中指出这里表明任意层之间都是残差关系,同时与传统神将网络递推公式的对比,这里是一系列的加法,传统神经网络中更多的是矩阵之间的连乘,所以ResNet梯度稳定性更好也可以这样理解。
bp公式:
εxl=εxLxLxl=εxL(1+xli=lLF(xi,Wi))

与正向传播对应,更高层的梯度都可以通过第一项直接传递给更低的层,同时公式中显示了ResNet不可能出现梯度消失的现象。

3. Experiment

exp on h
文中比较了constant scaling、exclusive gating、short-only gating、1*1 conv shortcut以及dropout shortcut来作为h,具体结构如图:
ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读
对应的实验结果如下表所示:
ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

  • fig2中的不同结构都没有origal效果好,也就是说其他形似的连接方式都会影响信息的传递。其中1*1conv的结果并不没有想ResNetV1中表现的结果那么好。
  • shortcut-only gating 和1×1的卷积涵盖了Identity Mapping的解空间。然而,它们的训练误差比恒等捷径连接的训练误差要高得多,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。

    exp on f
    文中分析了BN after addition,ReLU before addition,pre-activation方法作为f,研究f对ResNet效果的影响:

    pre-activation:原来的设计中相加操作后面还有一个ReLU**函数,这个**函数会影响到残差单元的两个分支,现在将它移到残差函数分支上,快捷连接分支不再受到影响。

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读
预**的影响具有两个方面。第一,由于f也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预**中使用BN能够提高模型的正则化。

cifar上的结果

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

ResNetV2:Identity Mappings in Deep Residual Networks 论文阅读

总结

本文可以说是ResultNet的升华,通过大量的对比实验来验证自己的理论推到的正确性,作者把ResNet分成三个部分h(skip connection),f(after-addition activation),F(residual function),ResNet原文对F进行了深入的研究,本文对h与f进行分析讨论,得出了足够简单,有效的结论与实验结果。

相关标签: dl