【计算机视觉】视频检测（一）

程序员文章站 2022-07-08 17:17:17

问题来源：直播形式的普及的同时也伴随着一系列问题，主播的行为难以得到规范。现在需要对直播间的主播的行为做一个检测，判断主播是否在一定时间内是在直播间的。解决方案：（1）将此问题当做是基于视频的目标检测，简单地，将问题视为一个二分类，即主播在与不在直播间；（2）在（1）的基础上，未来可能需要进行活体检测；相关调研：TNN（CVPR2016）TPN（CVPR2017）MEGA（CVPR2020）初步存在的问题：因为是实际问题，所以工业界对性能要求较高。虽然flow-ba....

一、背景

问题来源：

直播形式的普及的同时也伴随着一系列问题，主播的行为难以得到规范。现在需要对直播间的主播的行为做一个检测，判断主播是否在一定时间内是在直播间的。

解决方案：

（1）将此问题当做是基于视频的目标检测，简单地，将问题视为一个二分类，即主播在与不在直播间；

（2）在（1）的基础上，未来可能需要进行活体检测；

二、相关算法

TNN（CVPR2016）

模型：

1、VID任务设置

来自VID任务的目标检测与静态任务（DET）大体相似。它包含30个类，所有类在每个视频剪辑的所有帧中都被完全标记。对于每一帧，算法都将输出一组注释（帧索引，类标签，置信度，包围盒）。评估指标选取mAP。

2、总体框架

【计算机视觉】视频检测（一）

如上图，T-CNN框架主要由四个部分组成：

1）静止图像目标检测器：deepID-net（R-CNN扩展）与craft（faster R-cnn扩展）框架。用VID与DET同时训练。

2）多上下文抑制：把一个视频内的静态图片检测分数降序排列，评分高的类置信度较高。低于阈值的评分会被减去一个固定值来抑制以减少FP。

3）运动导向传播：在相邻帧中检测时，某些帧中可能会丢失某些对象。运动导向传播运用视觉流等运动信息，局部传播到相邻帧来减少FN。

4）tubelet重评分组件：从静止图片检测器的高置信度图片开始，首先利用跟踪算法来获得包围框序列（tubelet），tubelet根据它们检测获得的分数被分为正负样本，正分的被映射到更高的区域，负分被映射到更低的区域，从而扩大了分数的范围，以增强其检测分数的长时间一致性。

5）模型组合：运动导向传播与重评分的检测结果被映射到[0,1]范围内，并通过NMS方法联合（IOU=0.5）。

3、MCS（多上下文抑制）与MGP（运动导向传播）

如果仅仅检测视频中的静止图片，则会忽略视频片段中的前后信息关联。同类的物体往往会在相邻的帧重复出现，这样一旦出现评分高的负样本，就容易被作为离群值找出。因此，视频中所有检测的统计数据可以帮助区别出FP。

同时，有些正样本也可能会由于无候选区覆盖或遮挡、姿态不佳等问题被误判。作者认为，当一个物体静止或低速运动时，基本会出现在相邻帧的相同或相近位置。所以选择将bbox与对应的分数传递到相邻帧来减少误判。同时因为NMS的存在不太可能增加新的误报。

对于每个区域方案，我们计算区域方案边界框内的平均光流向量，并根据平均流向量将检测分数相同的bbox坐标传播到相邻帧。

对于每个候选区，计算候选区边界框内的平均视觉流向量，并根据平均流向量将检测分数相同的bbox坐标传播到相邻帧。

4、小管重评分（tubelet重评分组件）

MGP（运动导向传播）在静止图像检测器每次检测时都会生成短而致密的小管。它显著地减少了FN，但只是结合了短期的时间限制和一致性的最终检测结果。为了加强结果的长期时间一致性，还需要长时间的小管。所以使用跟踪算法来生成长tubelets，并将围绕tubelets的静态图像对象检测关联起来。

高置信度追踪：对于视频片段中的每个对象类，选择在时间维度上双向跟踪高置信度检测区域。跟踪的起始边界框称为锚点，锚点被确定为最可靠的探测点，从锚开始双向跟踪以获得一个完整的管。当跟踪在时间维度上进行时，被跟踪的盒子可能会漂移到背景或其他物体上，也可能不适应目标物体的尺度和姿态变化。所以当置信度小于一个阈值时（0.1），尽量早停止追踪以减少FP，然后再在剩余的检测里选择新的锚点重新开始追踪，为了减少冗余新锚点选择同样使用了NMS。

空间最大池化：

为了避免跟踪盒位置非最佳等因素，选择将tubelet候选盒替换为静止图片检测器获得的更高置信度结果。对于每个tubelet盒，我们首先从超过阈值(IOU =0.5)的与盒重叠的静态图像对象检测器获得检测。然后只保留检测分数最大的检测，用于替换跟踪的边框。

这个过程是模拟传统的NMS过程进行目标检测。如果tubelet盒确实是正样本盒，但检测分数较低，则该过程可以提高其检测分数。重叠阈值越高，tubelet盒的置信度越高。在极端情况下，当IOU = 1被选择为阈值时，可以完全依赖于tubelet盒，而不考虑它们周围来自静止图像对象检测器的盒。

Tubelet分类重评分：

将分数映射不同范围，以扩大分数差距。

TPN（CVPR2017）

MEGA（CVPR2020）

初步存在的问题：

因为是实际问题，所以工业界对性能要求较高。虽然flow-based的方法精度很高，但是速度很慢。

YouTube-Objects dataset：http://calvin-vision.net/datasets/youtube-objects-dataset/

youtube-8M：https://blog.csdn.net/u010167269/article/details/52740990?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.nonecase

MOT16：https://motchallenge.net/data/MOT16/

参考：

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

烦锤子了，本来招进来是推荐算法的，结果业务忽然变成了直播的，都是图像，欲哭无泪o(╥﹏╥)o

本文地址：https://blog.csdn.net/weixin_31866177/article/details/107334529

上一篇：荐腾讯80道高级算法面试题（首发，腾讯面试题、算法）

下一篇：某大型互联网企业-Java工程师招聘

【计算机视觉】视频检测（一）

一、背景

二、相关算法

TNN（CVPR2016）

TPN（CVPR2017）

MEGA（CVPR2020）

三、相关数据集

计算机视觉：图像特征与描述大全，有代码（一篇博文带你简单了解完图像特征提取技术）

Datawhale 计算机视觉基础-图像处理（下）-Task04 HOG特征描述算子-行人检测