ActivityNet 2018介绍

程序员文章站 2024-03-15 11:00:17

...

简介

ActivityNet是一个大规模行为识别竞赛，自CVPR 2016开始，今年是该竞赛的第三届。它侧重于从用户产生的视频中识别出日常生活，高层次，面向目标的活动，视频取自互联网视频门户Youtube。

ActivityNet 2018将进行7项不同的任务，致力于推动对视频的语义视觉理解的限制以及将视觉内容用标题概括出来。7项任务中的3项基于ActivityNet数据集，这3个任务侧重于以proposals，类别标签和标题的形式跟踪活动信息。另外4项作为guest任务，为了丰富视频中视觉信息的理解。这些任务集中于大规模行为识别问题的补充方面，涉及具有挑战性和最近发布的行为数据集，包括Kinetics (Google DeepMind), AVA (Berkeley and Google), SoA (Facebook), Moments in Time (MIT and IBM Research)。

ActivityNet任务

任务1 Temporal Action Proposals (ActivityNet)

在许多大规模视频分析场景中，人们有兴趣定位和识别长时间未修剪的视频中短时间间隔内出现的人类活动。目前的行为检测方法仍然很难处理大规模视频集合，并且有效地解决这一任务对于计算机视觉系统仍然很难。这是由于：
（1）当前动作识别方法的计算复杂性；
（2）缺少可以针对每个视频提出更少间隔的方法，使得行为处理仍然集中在大量候选时间片段中。这些候选时间片段被广泛称为行为建议（Action Proposals）。

为了在大规模和实际情况下适用，有用的Action Proposals方法由两个目标驱动：
（1）Proposal方法必须在计算上高效，对时间段进行表示，编码和打分。
（2）Proposal方法必须区分我们感兴趣的活动，以便仅检索包含指示这些活动类别的视觉信息的时间片段。

因此，此任务旨在推动Action Proposals生成算法的发展。

数据集

此任务采用ActivityNet 1.3版本数据集。该数据集包含超过648个小时的未修剪视频，共约2万个视频。它包含200种不同的日常活动，例如：’walking the dog’, ‘long jump’, and ‘vacuuming floor’等。数据量分布：train（~50%）, validation（~25%）, test（~25%）。

评估指标

评估服务器使用的评估代码可以在这里找到。

此任务使用Average Recall和Average Number of Proposals per Video（AR-AN）曲线作为评估指标。一个proposal为真的条件：该proposal的时间区间和真实值（ground-truth）的区间的tIOU（temporal intersection orver union）大于等于一个阈值（比如： $t I O U > 0.5$ ）。 $A R$ 被定义为召回值的平均值（满足 $0.5 < t I O U \leq 0.9$ ，步长为 $0.05$ ）。 $A N$ 被定义为proposals总数除以测试子集中的视频数量。当计算 $A R - A N$ 曲线上的值时，我们考虑 $A N$ 集中在1到100（含）之间的值，步长为1。

使用此评估指标评估提交文件的具体过程：

使：

A N_{s u b m i s s i o n} = \frac{提 交 文 件 中 p r o p o s a l s 总 数}{测 试 子 集 中 的 视 频 总 数}

$A N_{m a x}$ 表示在评估方法允许每个视频平均proposals数量的最大值。这里， $A N_{m a x} = 100$ 。让 $R = \frac{A N_{m a x}}{A N_{s u b m i s s i o n}}$ ，那么我们按照以下方式预处理提交文件：

若 $R < 1$ ，那么对于测试子集中的每个视频，我们会根据proposal得分对其proposal进行分类，并丢弃得分最低的 $R %$ 的proposal。
若 $R \geq 1$ ，那么对于测试子集中的每个视频，我们会根据提案得分对提案进行排序，并复制每个视频中得分最低的 $(R - 1) %$ 提案，并将结果数据点添加到 $A R - A N$ 曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。

过滤后的提交结果文件将有： $A N = A N_{m a x}$ 。对于每一个 $p$ 值（从1到100，步长为1），仅仅使用得分前 $p %$ 的proposal计算 $A R$ ，并将结果数据点添加到 $A R - A N$ 曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。

在验证子集上提供基线proposal方法（称为统一随机）的结果。统一随机（Uniform Random）：每个proposal的中心和长度是独立地从间隔内的均匀随机分布 $[0, d]$ 中抽取的，其中 $d$ 为视频长度。这个模型的得分： $44.88 %$ 。见下图：

虚线表示在平均超过一个 $t I o U$ 阈值时的召回性能，而实线表示跨所有 $t I o U$ 阈值的平均召回率。可以看出，在 $t I o U$ 比较小时召回性能较高，但在 $t I o U$ 较大时急速下降。因此，对于在评估指标上得分较高的proposal方法，需要重点关注对低和高 $t I o U$ 阈值下都得到相对较高的召回率。

提交格式

使用以下JSON格式，提交文件时需要去掉注释。上面举例的Uniform Random proposals方法结果点此下载。

{
  version: "VERSION 1.3",
  results: {
    "5n7NCViB5TU": [
      {
        score: 0.64,
        segment: [24.25,38.08]
      },
      {
        score: 0.77,
        segment: [11.25, 19.37]
      }
    ]
  }
  external_data: {
    used: true, # Boolean flag. True indicates the use of external data.
    details: "First fully-connected layer from VGG-16 pre-trained on ILSVRC-2012 training set", # This string details what kind of external data you used and how you used it.
  }
}

任务2 Temporal Action Localization (ActivityNet)

尽管最近在大规模视频分析方面取得了进展，但Temporal Action Localization仍然是计算机视觉中最具挑战性的未解决问题之一。这种搜索问题阻碍了从消费者视频摘要到监控，人群监控和老年护理等各种实际应用。因此，我们致力于推动开发高效，准确的自动化方法，以搜索和检索视频集合中的事件和活动。

这项任务旨在鼓励计算机视觉研究人员设计高性能的行为定位系统。

数据集

评估指标

评估服务器使用的评估代码可以在这里找到。

插值平均精度（Average Precision，AP）作为评估每个行为类别结果的指标。然后， $A P$ 对所有活动类别进行平均，得到 $m A P$ 。

一个detection为真的条件：该tIOU（temporal intersection orver union）大于等于一个阈值（比如： $t I O U > 0.5$ ）。此任务中使用的官方指标是平均mAP，其被定义为所有mAP值的平均值，其中 $t I O U$ 阈值满足： $0.5 < t I O U \leq 0.9$ ，步长为 $0.05$ 。

提交格式

同“任务1”所述。

任务3 Dense-Captioning Events in Videos (ActivityNet Captions)

大多数自然视频包含众多活动。例如，在“人弹钢琴”的视频中，视频可能还会包含另一个“人跳舞”或“人群鼓掌”。这项挑战研究密集字幕事件的任务，其中涉及检测和描述视频中的事件。这个挑战使用了ActivityNet Captions数据集，这是一个新的密集字幕事件的大型基准。ActivityNet Captions包含20K个视频，总计849个视频小时，总共有100K个描述，每个视频都有其独特的开始和结束时间。

数据集

ActivityNet Captions数据集将用于此挑战。数据集对视频用一系列时间注释的句子进行描述。每个句子涵盖视频的一个唯一的片段，描述发生的多个事件。这些事件可能会在很长或很短的时间内发生。平均而言，Captivity网络中的每个视频都包含3.65个句子，总共产生了10万个句子。每个视频的句子数量遵循相对正态的分布。而且，随着视频持续时间的增加，句子的数量也增加。每个句子的平均长度为13.48个字，也是正态分布的。

评估指标

评估服务器使用的评估代码可以在这里找到。

受密集图像字幕指标的启发，使用类似的指标来衡量模型对定位和字幕事件的联合能力。在前1000个proposal时，评估指标计算 $t I O U$ 在 $0.3, 0.5, 0.7$ 阈值上的平均准确率（AP）。使用传统评估指标来衡量我们标题的精确度：BLEU，METEOR和CIDDEr。

基线

基线结果在此。

提交格式

使用以下JSON格式，提交文件时需要去掉注释。点此下载。

{
  version: "VERSION 1.0",
  results: {
    "v_5n7NCViB5TU": [
        {
        sentence: "One player moves all around the net holding the ball", # String description of an event. 
        timestamp: [1.23,4.53] # The start and end times of the event (in seconds).
        },
        {
        sentence: "A small group of men are seen running around a basketball court playing a game".
        timestamp: [5.24, 18.23]
        }
    ]
  }
  external_data: {
    used: true, # Boolean flag. True indicates the use of external data.
    details: "First fully-connected layer from VGG-16 pre-trained on ILSVRC-2012 training set", # This string details what kind of external data you used and how you used it.
  }
}

上一篇： CVPR2017最佳论文 Densely Connected Convolutional Networks （DenseNets）阅读笔记

ActivityNet 2018介绍

简介

ActivityNet任务

任务1 Temporal Action Proposals (ActivityNet)

数据集

评估指标

提交格式

任务2 Temporal Action Localization (ActivityNet)

数据集

评估指标

提交格式

任务3 Dense-Captioning Events in Videos (ActivityNet Captions)

数据集

评估指标

基线

提交格式