ResNet解析

程序员文章站 2022-07-01 18:09:27

...

原

ResNet解析

        <div class="article-info-box">
            <div class="article-bar-top d-flex">
                                                                            <span class="time">2018年01月14日 18:04:00</span>
                <div class="float-right">
                    <span class="read-count">阅读数：63384</span>
                                                                </div>
            </div>
        </div>

    </div>
</div>
<article>
    <div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
                <div class="markdown_views">
            <p>ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用ResNet，Alpha zero也使用了ResNet，所以可见ResNet确实很好用。 <br>

下面我们从实用的角度去看看ResNet。

1.ResNet意义

随着网络的加深，出现了训练集准确率下降的现象，我们可以确定这不是由于Overfit过拟合造成的(过拟合的情况训练集应该准确率很高)；所以作者针对这个问题提出了一种全新的网络，叫深度残差网络，它允许网络尽可能的加深，其中引入了全新的结构如图1；
这里问大家一个问题
残差指的是什么？
其中ResNet提出了两种mapping：一种是identity mapping，指的就是图1中”弯弯的曲线”，另一种residual mapping，指的就是除了”弯弯的曲线“那部分，所以最后的输出是 y=F(x)+x” role=”presentation” style=”position: relative;”>y=F(x)+xy=F(x)+x
identity mapping顾名思义，就是指本身，也就是公式中的x” role=”presentation” style=”position: relative;”>xx部分。
为什么ResNet可以解决“随着网络加深，准确率不下降”的问题？
除了实验证明外：
ResNet解析
表1，Resnet在ImageNet上的结果
理论上，对于“随着网络加深，准确率下降”的问题，Resnet提供了两种选择方式，也就是identity mapping和residual mapping，如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

2.ResNet结构

它使用了一种连接方式叫做“shortcut connection”，顾名思义，shortcut就是“抄近道”的意思，看下图我们就能大致理解：
ResNet解析
图1 Shortcut Connection
这是文章里面的图，我们可以看到一个“弯弯的弧线“这个就是所谓的”shortcut connection“，也是文中提到identity mapping，这张图也诠释了ResNet的真谛，当然大家可以放心，真正在使用的ResNet模块并不是这么单一，文章中就提出了两种方式：
ResNet解析
图2 两种ResNet设计
这两种结构分别针对ResNet34（左图）和ResNet50/101/152（右图），一般称整个结构为一个”building block“。其中右图又称为”bottleneck design”，目的一目了然，就是为了降低参数的数目，第一个1x1的卷积把256维channel降到64维，然后在最后通过1x1卷积恢复，整体上用的参数数目：1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632，而不使用bottleneck的话就是两个3x3x256的卷积，参数数目: 3x3x256x256x2 = 1179648，差了16.94倍。
对于常规ResNet，可以用于34层或者更少的网络中，对于Bottleneck Design的ResNet通常用于更深的如101这样的网络中，目的是减少计算和参数量（实用目的）。

问大家一个问题：
如图1所示，如果F(x)和x的channel个数不同怎么办，因为F(x)和x是按照channel维度相加的，channel不同怎么相加呢？
针对channel个数是否相同，要分成两种情况考虑，如下图：
ResNet解析
图3 两种Shortcut Connection方式
如图3所示，我们可以清楚的”实线“和”虚线“两种连接方式，
实线的的Connection部分(”第一个粉色矩形和第三个粉色矩形“)都是执行3x3x64的卷积，他们的channel个数一致，所以采用计算方式：
y=F(x)+x” role=”presentation” style=”position: relative;”>y=F(x)+xy=F(x)+x
虚线的的Connection部分(”第一个绿色矩形和第三个绿色矩形“)分别是3x3x64和3x3x128的卷积操作，他们的channel个数不同(64和128)，所以采用计算方式：
y=F(x)+Wx” role=”presentation” style=”position: relative;”>y=F(x)+Wxy=F(x)+Wx
其中W是卷积操作，用来调整x的channel维度的；
下面我们看看两个实例：
ResNet解析
图4 两种Shortcut Connection方式实例（左图channel一致，右图channel不一样）

3.ResNet50和ResNet101

这里把ResNet50和ResNet101特别提出，主要因为它们的出镜率很高，所以需要做特别的说明。给出了它们具体的结构：
ResNet解析
表2，Resnet不同的结构
首先我们看一下表2，上面一共提出了5中深度的ResNet，分别是18，34，50，101和152，首先看表2最左侧，我们发现所有的网络都分成5部分，分别是：conv1，conv2_x，conv3_x，conv4_x，conv5_x，之后的其他论文也会专门用这个称呼指代ResNet50或者101的每部分。
拿101-layer那列，我们先看看101-layer是不是真的是101层网络，首先有个输入7x7x64的卷积，然后经过3 + 4 + 23 + 3 = 33个building block，每个block为3层，所以有33 x 3 = 99层，最后有个fc层(用于分类)，所以1 + 99 + 1 = 101层，确实有101层网络；
注：101层网络仅仅指卷积或者全连接层，而**层或者Pooling层并没有计算在内；
这里我们关注50-layer和101-layer这两列，可以发现，它们唯一的不同在于conv4_x，ResNet50有6个block，而ResNet101有23个block，查了17个block，也就是17 x 3 = 51层。

4.基于ResNet101的Faster RCNN

文章中把ResNet101应用在Faster RCNN上取得了更好的结果，结果如下：
ResNet解析

表3，Resnet101 Faster RCNN在Pascal VOC07/12 以及COCO上的结果
这里有个问题：
Faster RCNN中RPN和Fast RCNN的共享特征图用的是conv5_x的输出么？
针对这个问题我们看看实际的基于ResNet101的Faster RCNN的结构图：

图5 基于ResNet101的Faster RCNN
图5展示了整个Faster RCNN的架构，其中蓝色的部分为ResNet101，可以发现conv4_x的最后的输出为RPN和RoI Pooling共享的部分，而conv5_x(共9层网络)都作用于RoI Pooling之后的一堆特征图(14 x 14 x 1024)，特征图的大小维度也刚好符合原本的ResNet101中conv5_x的输入；
最后大家一定要记得最后要接一个average pooling，得到2048维特征，分别用于分类和框回归。

    <div class="article-bar-bottom" style="height: 36px; overflow: hidden;">
                    <div class="tags-box artic-tag-box">
        <span class="label">文章标签：</span>
                    <a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;ResNet&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=ResNet&amp;t=blog" target="_blank">ResNet                        </a><a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;faster-r-cnn&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=faster-r-cnn&amp;t=blog" target="_blank">faster-r-cnn                      </a><a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;深度学习&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=深度学习&amp;t=blog" target="_blank">深度学习                      </a>
    </div>
                    <div class="tags-box">
        <span class="label">个人分类：</span>
                    <a class="tag-link" href="https://blog.csdn.net/lanran2/article/category/6045996" target="_blank">深度学习                      </a><a class="tag-link" href="https://blog.csdn.net/lanran2/article/category/7401221" target="_blank">ResNet                        </a><a class="tag-link" href="https://blog.csdn.net/lanran2/article/category/7401222" target="_blank">faster-r-cnn                      </a>
    </div>
                <div class="article_info_click" style="left: 288px; width: auto; top: 0px;">▼查看关于本篇文章更多信息</div></div>
</div>

ResNet解析

ResNet解析

1.ResNet意义

2.ResNet结构

3.ResNet50和ResNet101

4.基于ResNet101的Faster RCNN

JQGrid的用法解析(列编辑,添加行,删除行)

全球首款7nm PC平台骁龙8cx解析：实现性能/功耗完美平衡

仅用500行Python代码实现一个英文解析器的教程

php的SimpleXML方法读写XML接口文件实例解析

eBay的网站架构演进以及技术特点解析

选择Node.js作为服务器端运行环境的优势解析

CDN缓存是什么意思解析CDN加速的那些事

全面解析LinkedIn以日志为中心的大数据管理方式

爱普生激光打印机常见故障解析

ThinkPad X250拆机教程和解析(图文详解)

ResNet解析

ResNet解析

1.ResNet意义

2.ResNet结构

3.ResNet50和ResNet101

4.基于ResNet101的Faster RCNN

JQGrid的用法解析(列编辑,添加行,删除行)

全球首款7nm PC平台骁龙8cx解析：实现性能/功耗完美平衡

仅用500行Python代码实现一个英文解析器的教程

php的SimpleXML方法读写XML接口文件实例解析

eBay的网站架构演进以及技术特点解析

选择Node.js作为服务器端运行环境的优势解析

CDN缓存是什么意思 解析CDN加速的那些事

全面解析LinkedIn以日志为中心的大数据管理方式

爱普生激光打印机常见故障解析

ThinkPad X250拆机教程和解析(图文详解)

CDN缓存是什么意思解析CDN加速的那些事