欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

【计算机视觉】视频检测(一)

程序员文章站 2022-04-22 11:41:59
问题来源:直播形式的普及的同时也伴随着一系列问题,主播的行为难以得到规范。现在需要对直播间的主播的行为做一个检测,判断主播是否在一定时间内是在直播间的。解决方案:(1)将此问题当做是基于视频的目标检测,简单地,将问题视为一个二分类,即主播在与不在直播间;(2)在(1)的基础上,未来可能需要进行活体检测;相关调研:TNN(CVPR2016)TPN(CVPR2017)MEGA(CVPR2020)初步存在的问题:因为是实际问题,所以工业界对性能要求较高。虽然flow-ba....

一、背景

问题来源:

直播形式的普及的同时也伴随着一系列问题,主播的行为难以得到规范。现在需要对直播间的主播的行为做一个检测,判断主播是否在一定时间内是在直播间的。

解决方案:

(1)将此问题当做是基于视频的目标检测,简单地,将问题视为一个二分类,即主播不在直播间;

(2)在(1)的基础上,未来可能需要进行活体检测;

二、相关算法

相关调研:

TNN(CVPR2016)

模型:

1、VID任务设置

来自VID任务的目标检测与静态任务(DET)大体相似。它包含30个类,所有类在每个视频剪辑的所有帧中都被完全标记。对于每一帧,算法都将输出一组注释(帧索引,类标签,置信度,包围盒)。评估指标选取mAP。

2、总体框架

【计算机视觉】视频检测(一)

如上图,T-CNN框架主要由四个部分组成:

1)静止图像目标检测器:deepID-net(R-CNN扩展)与craft(faster R-cnn扩展)框架。用VID与DET同时训练。

2)多上下文抑制:把一个视频内的静态图片检测分数降序排列,评分高的类置信度较高。低于阈值的评分会被减去一个固定值来抑制以减少FP。

3)运动导向传播:在相邻帧中检测时,某些帧中可能会丢失某些对象。运动导向传播运用视觉流等运动信息,局部传播到相邻帧来减少FN。

4)tubelet重评分组件:从静止图片检测器的高置信度图片开始,首先利用跟踪算法来获得包围框序列(tubelet,tubelet根据它们检测获得的分数被分为正负样本,正分的被映射到更高的区域,负分被映射到更低的区域,从而扩大了分数的范围,以增强其检测分数的长时间一致性。

5)模型组合:运动导向传播与重评分的检测结果被映射到[0,1]范围内,并通过NMS方法联合(IOU=0.5)。

3、MCS(多上下文抑制)与MGP(运动导向传播)

如果仅仅检测视频中的静止图片,则会忽略视频片段中的前后信息关联。同类的物体往往会在相邻的帧重复出现,这样一旦出现评分高的负样本,就容易被作为离群值找出。因此,视频中所有检测的统计数据可以帮助区别出FP。

 

同时,有些正样本也可能会由于无候选区覆盖或遮挡、姿态不佳等问题被误判。作者认为,当一个物体静止或低速运动时,基本会出现在相邻帧的相同或相近位置。所以选择将bbox与对应的分数传递到相邻帧来减少误判。同时因为NMS的存在不太可能增加新的误报。

对于每个区域方案,我们计算区域方案边界框内的平均光流向量,并根据平均流向量将检测分数相同的bbox坐标传播到相邻帧。

对于每个候选区,计算候选区边界框内的平均视觉流向量,并根据平均流向量将检测分数相同的bbox坐标传播到相邻帧。

4、小管重评分(tubelet重评分组件)

MGP(运动导向传播)在静止图像检测器每次检测时都会生成短而致密的小管。它显著地减少了FN,但只是结合了短期的时间限制和一致性的最终检测结果。为了加强结果的长期时间一致性,还需要长时间的小管。所以使用跟踪算法来生成长tubelets,并将围绕tubelets的静态图像对象检测关联起来。

高置信度追踪:对于视频片段中的每个对象类,选择在时间维度上双向跟踪高置信度检测区域。跟踪的起始边界框称为锚点,锚点被确定为最可靠的探测点,从锚开始双向跟踪以获得一个完整的管。当跟踪在时间维度上进行时,被跟踪的盒子可能会漂移到背景或其他物体上,也可能不适应目标物体的尺度和姿态变化。所以当置信度小于一个阈值时(0.1),尽量早停止追踪以减少FP,然后再在剩余的检测里选择新的锚点重新开始追踪,为了减少冗余新锚点选择同样使用了NMS。

空间最大池化 :

为了避免跟踪盒位置 非最佳 等因素,选择将tubelet候选盒 替换为静止图片检测器获得的更高置信度结果。对于每个tubelet盒,我们首先从超过阈值(IOU =0.5)的与盒重叠的静态图像对象检测器获得检测。然后只保留检测分数最大的检测,用于替换跟踪的边框。

这个过程是模拟传统的NMS过程进行目标检测。如果tubelet盒确实是正样本盒,但检测分数较低,则该过程可以提高其检测分数。重叠阈值越高,tubelet盒的置信度越高。在极端情况下,当IOU = 1被选择为阈值时,可以完全依赖于tubelet盒,而不考虑它们周围来自静止图像对象检测器的盒。

Tubelet分类重评分:

将分数 映射不同范围,以扩大分数差距。

 

TPN(CVPR2017)

 

MEGA(CVPR2020)

 

初步存在的问题:

因为是实际问题,所以工业界对性能要求较高。虽然flow-based的方法精度很高,但是速度很慢。

 

三、相关数据集

VID2015:http://image-net.org/challenges/LSVRC/2015/downloads

YouTube-Objects dataset:http://calvin-vision.net/datasets/youtube-objects-dataset/

youtube-8M:https://blog.csdn.net/u010167269/article/details/52740990?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.nonecase

MOT16:https://motchallenge.net/data/MOT16/


参考:

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

烦锤子了,本来招进来是推荐算法的,结果业务忽然变成了直播的,都是图像,欲哭无泪o(╥﹏╥)o

本文地址:https://blog.csdn.net/weixin_31866177/article/details/107334529