欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

目标检测入门:候选区域选择(region proposals)

程序员文章站 2022-05-27 16:31:20
...

转自:https://blog.csdn.net/M_Z_G_Y/article/details/81281398

目标检测入门:候选区域选择(region proposals)

滑动窗口

       滑动窗口检测器是一种暴力检测方法,从左到右,从上到下滑动窗口,然后利用分类识别目标。这里使用不同大小的窗口,因为一张图片可能展示从不同距离观测检测出不同的目标类型
目标检测入门:候选区域选择(region proposals)

       滑动窗口目标检测算法也有很明显的缺点,就是计算成本,因为你在图片中剪切出太多小方块,卷积网络要一个个地处理。如果你选用的步幅很大,显然会减少输入卷积网络的窗口个数,但是粗糙间隔尺寸可能会影响性能。反之,如果采用小粒度或小步幅,传递给卷积网络的小窗口会特别多,这意味着超高的计算成本。

选择性搜索

思路

       对于玩过Opencv人脸检测的人来说,基本都会形成一个思维定势,那就是检测就是不同大小的滑动窗进行穷举,然后使用分类器判断哪个滑动窗是人脸。对于深度学习这样超大计算量的分类器来说,这样的方法肯定是让人觉得太过于笨重的。于是乎,有人灵光一闪,说我干嘛要穷举嘛,我用简单的方法,根据颜色,纹理之类的信息去把图片划分成不同区域,哪怕是精度不高也可以相对于穷举搜索大量减少计算量。就是这么简单的搜索剪枝思路,几乎成为了当前深度学习物体识别领域的基本原则之一了。

实现细节

       思路是关键,细节是必要条件。有了一个好的思路,作者在当时环境,提出来了一个相对比较好的selective search实现思路,虽然现在已经有了非常高端的技术,将selective search这个过程结合到神经网络之中,但是作者的这个实现思路也是非常值得学习,特别是如何利用已有的技术去实现自己提出的一个新的思路,不然就算哪天灵光一闪有了一个绝妙的思路,也实现不了。

待解决问题:

1)如何保证划分相对完全,有的object之间是纹理不一样,有的是颜色不一样,单一的判断标准肯定无法完全cover所有的候选区域,这样的话selective-search就没有了最基础的用处了。对应原始的穷举搜索,就是扫描这个过程,扫描就是保证能够划分完全。

2)hierarchical层次关系,划分不能简单只是划分小区域,简单思考下就能发现,object肯定存在层次关系。轮胎是object,车子也是obeject,车子包含了轮胎。桌子是,桌子上的东西也是,桌子在图像上包含了桌子上的东西。所以Selective Search也应该要能够将各个层次的object的区域都给出来。对应原始的穷举搜索,就是不同大小的搜索框,只有不同大小的搜索框才能保证不同层次的object都被选择出来。

3)速度,比起穷举搜索这样无脑的方法,selective search肯定在划分时有一定计算量的,如何保证计算量相对小,也是一个需要考虑的问题。

实现:

       作者的实现思路是,首先通过简单的区域划分算法,将图片划分成很多小区域,再通过相似度和区域大小(小的区域先聚合,这样是防止大的区域不断的聚合小区域,导致层次关系不完全)不断的聚合相邻小区域,类似于聚类的思路。这样就能解决object层次问题,实际上也是非常成熟的技术。

       其次,作者为了保证能够划分的完全,对于相似度,作者提出了可以多样化的思路,不但使用多样的颜色空间(RGB,Lab,HSV等等),还有很多不同的相似度计算方法。

颜色相似度:将色彩空间转为HSV,每个通道下以bins=25计算直方图,这样每个区域的颜色直方图有25*3=75个区间。 
对直方图除以区域尺寸做归一化后使用下式计算相似度 
目标检测入门:候选区域选择(region proposals) 
       可以看到,就是简单的取每个区间最小的值累加。(可以这么理解:假设两个直方图波峰和波谷高度重合,那么计算下来的值比较大;反之如果波峰和波谷错开的,那么累加的值一定比较小。因此这里提前归一化很重要)

 纹理相似度:论文采用方差为1的高斯分布在8个方向做梯度统计,然后将统计结果(尺寸与区域大小一致)以bins=10计算直方图。直方图区间数为8*3*10=240(使用RGB色彩空间)。

       目标检测入门:候选区域选择(region proposals)

       其中,目标检测入门:候选区域选择(region proposals)是直方图中第目标检测入门:候选区域选择(region proposals)个bin的值。

尺度相似度:

       目标检测入门:候选区域选择(region proposals)

       保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

       例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

交叠相似度:

       目标检测入门:候选区域选择(region proposals)

       目标检测入门:候选区域选择(region proposals)

       最后对于计算速度来说,只能说这个思路在相对穷举,大大减少了后期分类过程中的计算量,但是本身的计算量还是有很大的优化空间,后来很多人在这个思路上改进,得到了性能好的多的算法。

算法流程:

目标检测入门:候选区域选择(region proposals)

step0:使用Felzenszwalb生成初始化区域集R(该方法是基于图的图像分割实现的,具体参照https://blog.csdn.net/guoyunfei20/article/details/78727972)

step1:计算区域集R里每个相邻区域的相似度S={s1,s2,…} 
step2:找出相似度最高的两个区域,将其合并为新集,添加进R 
step3:从S中移除所有与step2中有关的子集 
step4:计算新集与所有子集的相似度 
step5:跳至step2,直至S为空