欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

(二)open image dataset v5 数据集解析

程序员文章站 2022-05-30 12:02:39
...

Subset with Bounding Boxes (600 classes), Object Segmentations, and Visual Relationships(包含边界框(600个类)、对象分割和可视关系的子集)

这些注释文件涵盖了600个box - able对象类,并覆盖了1,743,042个训练图像,其中我们注释了边界框、对象分割和视觉关系,以及完整的验证(41,620个图像)和测试(125,436个图像)集。

 

下载像素有问题吗?让我们知道。

警告:图8中的网站目前托管V4数据。但是,这个子集中的174万张图像在V5中没有变化,所以您可以从图8安全地下载它们。

(二)open image dataset v5 数据集解析

 

Subset with Image-Level Labels (19,959 classes) 带有图像级标签的子集(19,959个类)

这些注释文件覆盖所有对象类。在训练集中,人类验证的标签跨度为6,287,678张,而机器生成的标签跨度为8,949,445张。
下面的图像 IDs 列出了所有具有人类验证标签的图像。
注释文件跨越了完整的验证(41620幅图像)和测试(125436幅图像)集。

(二)open image dataset v5 数据集解析

 

Complete Open Images  完整的开放图片

完整的9178275张图片。

(二)open image dataset v5 数据集解析

Open Images Extended

(二)open image dataset v5 数据集解析

 

Data Formats

Bounding boxes

每一行定义一个边界框。

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside
0001eeaf4aed83f9,xclick,/m/0cmf2,1,0.022673031,0.9642005,0.07103825,0.80054647,0,0,0,0,0
000595fe6fee6369,xclick,/m/02xwb,1,0.45655376,0.6097202,0.20399113,0.50554323,0,0,1,0,0
00075905539074f2,xclick,/m/04yx4,1,0.020477816,0.32935154,0.0956023,0.665392,0,0,0,1,0
000a1249af2bc5f0,xclick,/m/09j2d,1,0.56911767,0.99852943,0.0022172949,0.93569845,1,1,0,0,0
...

ImageID:这个框所在的图像。

Source:指示框是如何制作的:

  • xclick 是使用[1]中提供的方法手工绘制的框。
  • activemil 是使用增强版的方法[2]生成的框。这些是人类被证实是准确的IoU>0.7。

LabelName:此框所属对象类的 MID。

Confidence:一个虚值,总是1。

XMin, XMax, YMin, YMax:框的坐标,归一化图像坐标。XMin在[0,1]中,其中0是图像中最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。

属性的定义如下:

IsOccluded:表示该对象被图像中的另一个对象遮挡。

IsTruncated:表示对象超出图像的边界。

IsGroupOf:表示框跨越一组对象(例如,花床或一群人)。我们要求注释器在超过5个实例的情况下使用此标记,这些实例彼此严重遮挡,并且具有物理上的接触。

isdescription:表示对象是一个描述(例如,对象的卡通或绘图,而不是真实的物理实例)。

IsInside:指从物体内部(如汽车内部或建筑物内部)拍摄的照片。

对于它们中的每一个,值1表示存在,0表示不存在,-1表示未知。

 

Instance segmentation masks

掩码信息存储在两个文件中:

  • 单个掩码图像,在文件名中编码信息。
  • 带有附加信息的逗号分隔值(CSV)文件(masks_data.csv)。

掩码图像是PNG二进制图像,其中非零像素属于一个对象实例,零像素是背景。文件名如下(随机5个例子)

e88da03f2d80f1a1_m019jd_e16d01b9.png
540c5536e95a3282_m014j1m_b00fa52e.png
1c84bdd61fa3b883_m06m11_62ef2388.png
663389d2c9d562d8_m04_sv_7e23f2a5.png
072b8fd82919ab3e_m06mf6_dd70f221.png

zip归档名称的格式如下:每个 <subset>_<suffix>.zip 包含所有ImageID的第一个字符为 <suffix>的图像的所有掩码。
<suffix>的值从0-9和a-f开始。
masks_data.csv中的每一行描述一个实例,使用类似的约定作为框的CSV数据文件。

MaskPath,ImageID,LabelName,BoxID,BoxXMin,BoxXMax,BoxYMin,BoxYMax,PredictedIoU,Clicks
25adb319ebc72921_m02mqfb_8423aba8.png,25adb319ebc72921,/m/02mqfb,8423aba8,0.000000,0.998438,0.089062,0.770312,0.62821,0.15808 0.26206 1;0.90333 0.41076 0;0.17578 0.66566 1;0.00761 0.23197 1;0.07918 0.26058 0;0.31792 0.47737 1;0.12858 0.59262 0;0.73229 0.34016 1;0.01865 0.20001 1;0.52214 0.31037 0;0.83596 0.28105 1;0.23418 0.60177 0
0a419be97dec2fa3_m02mqfb_8ad2c442.png,0a419be97dec2fa3,/m/02mqfb,8ad2c442,0.057813,0.943750,0.056250,0.960938,0.87836,0.89971 0.08481 1;0.20175 0.90471 0;0.11511 0.89990 0;0.94728 0.28410 0;0.19611 0.85369 0;0.07672 0.87857 1;0.82215 0.62642 0;0.13916 0.92650 1;0.51738 0.48419 1
8eef6e54789ce66d_m02mqfb_83dae39c.png,8eef6e54789ce66d,/m/02mqfb,83dae39c,0.037500,0.978750,0.129688,0.925000,0.70206,0.40219 0.16838 1;0.56758 0.65286 1;0.08311 0.90762 1;0.20840 0.56515 1;0.43336 0.23679 0;0.24689 0.43426 0;0.49292 0.65762 1;0.31383 0.51431 0;0.07137 0.86214 0;0.68160 0.38210 1;0.69462 0.59568 0
...

MaskPath:对应掩码图像的名称。

ImageID:这个掩码所在的图像。

LabelName:这个掩码所属的对象类的MID。

BoxID:图像中框的标识符。

BoxXMin, BoxXMax, BoxYMin, BoxYMax:链接到掩码的框的坐标,在归一化的图像坐标中。注意,这不是掩码的边界框,而是用于注释掩码的起始框。这些坐标可用于将掩码数据与框数据关联起来。

PredictedIoU:如果存在,表示相对于ground-truth的预测IoU值。此质量评估是基于人工注释器行为由机器生成的。详见[3]。

click:如果存在,表示人工注释器单击,它在我们执行的注释过程中提供了指导(详细信息请参阅[3])。该字段采用以下格式编码:X1 Y1 T1;X2 Y2 T2;X3 Y3 T3;Xi Yi是归一化图像坐标中点击的坐标。Ti是单击类型,值0表示注释器将该点标记为背景,值1表示对象实例的一部分(前景)。这些点击对于交互式分割领域的研究人员来说是很有趣的。对于只对最终蒙版感兴趣的用户,它们不是必需的。

Visual relationships

文件中的每一行对应一个注释。

ImageID,LabelName1,LabelName2,XMin1,XMax1,YMin1,YMax1,XMin2,XMax2,YMin2,YMax2,RelationLabel
0009fde62ded08a6,/m/0342h,/m/01d380,0.2682927,0.78549093,0.4977778,0.8288889,0.2682927,0.78549093,0.4977778,0.8288889,is
00198353ef684011,/m/01mzpv,/m/04bcr3,0.23779725,0.30162704,0.6500938,0.7335835,0,0.5819775,0.6482176,0.99906194,at
001e341dd7456c72,/m/04yx4,/m/01mzpv,0.07009346,0.2859813,0.2332708,0.5203252,0.14018692,0.31588784,0.32082552,0.48405254,on
001e341dd7456c72,/m/04yx4,/m/01mzpv,0,0.28317758,0.26454034,0.5540963,0.2224299,0.3411215,0.3908693,0.4859287,on
001e341dd7456c72,/m/01599,/m/04bcr3,0.5551402,0.6084112,0.50343966,0.5490932,0.5411215,0.95981306,0.5090682,0.78361475,on
001e341dd7456c72,/m/04bcr3,/m/01d380,0.7392523,0.9990654,0.3889931,0.518449,0.7392523,0.9990654,0.3889931,0.518449,is
...

ImageID:这个关系实例所在的映像。

LabelName1:关系三元组中第一个对象的标签。

XMin1,XMax1,YMin1,YMax1:第一个对象的包围框的规范化包围框坐标。

LabelName2:关系三元组或属性中的第二个对象的标签。

XMin2, XMax2, YMin2, YMax2:如果是一对对象之间的关系:第二个对象的边界框的规范化边界框坐标。对于对象-属性关系(RelationLabel="is"):第一个对象的规范化边界框(重复)。在本例中,LabelName2是一个属性。

RelationLabel:关系的标签(属性为“is”)。

Image Labels

人工验证和机器生成的图像级标签:

ImageID,Source,LabelName,Confidence
000026e7ee790996,verification,/m/04hgtk,0
000026e7ee790996,verification,/m/07j7r,1
000026e7ee790996,crowdsource-verification,/m/01bqvp,1
000026e7ee790996,crowdsource-verification,/m/0csby,1
000026e7ee790996,verification,/m/01_m7,0
000026e7ee790996,verification,/m/01cbzq,1
000026e7ee790996,verification,/m/01czv3,0
000026e7ee790996,verification,/m/01v4jb,0
000026e7ee790996,verification,/m/03d1rd,0
...

Source:指示如何创建注释:

  • verification 是由谷歌的内部注释器验证的标签。
  • crowdsource-verification 是指通过众包app验证标签。
  • machine 是机器生成的标签。

Confidence:在图像中出现的经过人类验证的标签置信度= 1(正面标签)。经过人为验证的标签在图像中不存在时,置信度为0(负标签)。机器生成的标签具有部分置信度,通常>= 0.5。信心越高,被贴上假阳性标签的可能性就越小。

Class Names

MID格式的类名可以通过查看class description.csv转换为它们的简短描述:

...
/m/0pc9,Alphorn
/m/0pckp,Robin
/m/0pcm_,Larch
/m/0pcq81q,Soccer player
/m/0pcr,Alpaca
/m/0pcvyk2,Nem
/m/0pd7,Army
/m/0pdnd2t,Bengal clockvine
/m/0pdnpc9,Bushwacker
/m/0pdnsdx,Enduro
/m/0pdnymj,Gekkonidae
...

注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:

/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"

Image IDs

它有图像url、它们的OpenImages id、旋转信息、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,
OriginalSize,OriginalMD5,Thumbnail300KURL,Rotation
...
000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\
https://www.flickr.com/photos/brokentaco/5215831864,\
https://creativecommons.org/licenses/by/2.0/,\
"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\
211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg,0
...

每个图片都分配了一个惟一的64位ID。在CSV文件中,它们以零填充的十六进制整数的形式出现,比如000060e3121c7305。

数据与目标网站上显示的一样。

  • OriginalSize 是原始图像的下载大小。
  • OriginalMD5 是base64编码的二进制MD5,如下所述。
  • Thumbnail300KURL 是到具有~300K像素(~640x480)的缩略图的可选URL。它提供了方便的下载数据,在没有更方便的方式获得图像。如果缺少OriginalURL,则必须使用它(如果需要,则将其调整为相同的大小)。这些缩略图是动态生成的,它们的内容甚至分辨率可能每天都不一样。
  • Rotation 是图像逆时针旋转的角度数,以匹配Flickr用户期望的方向(0,90,180,270)。nan表示此信息不可用。有关此问题的更多信息,请查看此公告。

Hierarchy for 600 boxable classes

在这里可以将box - able类的集合作为层次结构查看,或者下载为JSON文件:

(二)open image dataset v5 数据集解析

References

  1. "We don't need no bounding-boxes: Training object class detectors using only human verification, Papadopolous et al., CVPR 2016.

  2. "Extreme clicking for efficient object annotation", Papadopolous et al., ICCV 2017.

  3. "Large-scale interactive object segmentation with human annotators", Benenson et al., CVPR 2019.