(二)open image dataset v5 数据集解析
Subset with Bounding Boxes (600 classes), Object Segmentations, and Visual Relationships(包含边界框(600个类)、对象分割和可视关系的子集)
这些注释文件涵盖了600个box - able对象类,并覆盖了1,743,042个训练图像,其中我们注释了边界框、对象分割和视觉关系,以及完整的验证(41,620个图像)和测试(125,436个图像)集。
下载像素有问题吗?让我们知道。
警告:图8中的网站目前托管V4数据。但是,这个子集中的174万张图像在V5中没有变化,所以您可以从图8安全地下载它们。
Subset with Image-Level Labels (19,959 classes) 带有图像级标签的子集(19,959个类)
这些注释文件覆盖所有对象类。在训练集中,人类验证的标签跨度为6,287,678张,而机器生成的标签跨度为8,949,445张。
下面的图像 IDs 列出了所有具有人类验证标签的图像。
注释文件跨越了完整的验证(41620幅图像)和测试(125436幅图像)集。
Complete Open Images 完整的开放图片
完整的9178275张图片。
Open Images Extended
Data Formats
Bounding boxes
每一行定义一个边界框。
ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside 0001eeaf4aed83f9,xclick,/m/0cmf2,1,0.022673031,0.9642005,0.07103825,0.80054647,0,0,0,0,0 000595fe6fee6369,xclick,/m/02xwb,1,0.45655376,0.6097202,0.20399113,0.50554323,0,0,1,0,0 00075905539074f2,xclick,/m/04yx4,1,0.020477816,0.32935154,0.0956023,0.665392,0,0,0,1,0 000a1249af2bc5f0,xclick,/m/09j2d,1,0.56911767,0.99852943,0.0022172949,0.93569845,1,1,0,0,0 ...
ImageID:这个框所在的图像。
Source:指示框是如何制作的:
- xclick 是使用[1]中提供的方法手工绘制的框。
- activemil 是使用增强版的方法[2]生成的框。这些是人类被证实是准确的IoU>0.7。
LabelName:此框所属对象类的 MID。
Confidence:一个虚值,总是1。
XMin, XMax, YMin, YMax:框的坐标,归一化图像坐标。XMin在[0,1]中,其中0是图像中最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。
属性的定义如下:
IsOccluded:表示该对象被图像中的另一个对象遮挡。
IsTruncated:表示对象超出图像的边界。
IsGroupOf:表示框跨越一组对象(例如,花床或一群人)。我们要求注释器在超过5个实例的情况下使用此标记,这些实例彼此严重遮挡,并且具有物理上的接触。
isdescription:表示对象是一个描述(例如,对象的卡通或绘图,而不是真实的物理实例)。
IsInside:指从物体内部(如汽车内部或建筑物内部)拍摄的照片。
对于它们中的每一个,值1表示存在,0表示不存在,-1表示未知。
Instance segmentation masks
掩码信息存储在两个文件中:
- 单个掩码图像,在文件名中编码信息。
- 带有附加信息的逗号分隔值(CSV)文件(masks_data.csv)。
掩码图像是PNG二进制图像,其中非零像素属于一个对象实例,零像素是背景。文件名如下(随机5个例子)
e88da03f2d80f1a1_m019jd_e16d01b9.png 540c5536e95a3282_m014j1m_b00fa52e.png 1c84bdd61fa3b883_m06m11_62ef2388.png 663389d2c9d562d8_m04_sv_7e23f2a5.png 072b8fd82919ab3e_m06mf6_dd70f221.png
zip归档名称的格式如下:每个 <subset>_<suffix>.zip 包含所有ImageID的第一个字符为 <suffix>
的图像的所有掩码。
<suffix>的值从0-9和a-f开始。
masks_data.csv中的每一行描述一个实例,使用类似的约定作为框的CSV数据文件。
MaskPath,ImageID,LabelName,BoxID,BoxXMin,BoxXMax,BoxYMin,BoxYMax,PredictedIoU,Clicks 25adb319ebc72921_m02mqfb_8423aba8.png,25adb319ebc72921,/m/02mqfb,8423aba8,0.000000,0.998438,0.089062,0.770312,0.62821,0.15808 0.26206 1;0.90333 0.41076 0;0.17578 0.66566 1;0.00761 0.23197 1;0.07918 0.26058 0;0.31792 0.47737 1;0.12858 0.59262 0;0.73229 0.34016 1;0.01865 0.20001 1;0.52214 0.31037 0;0.83596 0.28105 1;0.23418 0.60177 0 0a419be97dec2fa3_m02mqfb_8ad2c442.png,0a419be97dec2fa3,/m/02mqfb,8ad2c442,0.057813,0.943750,0.056250,0.960938,0.87836,0.89971 0.08481 1;0.20175 0.90471 0;0.11511 0.89990 0;0.94728 0.28410 0;0.19611 0.85369 0;0.07672 0.87857 1;0.82215 0.62642 0;0.13916 0.92650 1;0.51738 0.48419 1 8eef6e54789ce66d_m02mqfb_83dae39c.png,8eef6e54789ce66d,/m/02mqfb,83dae39c,0.037500,0.978750,0.129688,0.925000,0.70206,0.40219 0.16838 1;0.56758 0.65286 1;0.08311 0.90762 1;0.20840 0.56515 1;0.43336 0.23679 0;0.24689 0.43426 0;0.49292 0.65762 1;0.31383 0.51431 0;0.07137 0.86214 0;0.68160 0.38210 1;0.69462 0.59568 0 ...
MaskPath:对应掩码图像的名称。
ImageID:这个掩码所在的图像。
LabelName:这个掩码所属的对象类的MID。
BoxID:图像中框的标识符。
BoxXMin, BoxXMax, BoxYMin, BoxYMax:链接到掩码的框的坐标,在归一化的图像坐标中。注意,这不是掩码的边界框,而是用于注释掩码的起始框。这些坐标可用于将掩码数据与框数据关联起来。
PredictedIoU:如果存在,表示相对于ground-truth的预测IoU值。此质量评估是基于人工注释器行为由机器生成的。详见[3]。
click:如果存在,表示人工注释器单击,它在我们执行的注释过程中提供了指导(详细信息请参阅[3])。该字段采用以下格式编码:X1 Y1 T1;X2 Y2 T2;X3 Y3 T3;Xi Yi是归一化图像坐标中点击的坐标。Ti是单击类型,值0表示注释器将该点标记为背景,值1表示对象实例的一部分(前景)。这些点击对于交互式分割领域的研究人员来说是很有趣的。对于只对最终蒙版感兴趣的用户,它们不是必需的。
Visual relationships
文件中的每一行对应一个注释。
ImageID,LabelName1,LabelName2,XMin1,XMax1,YMin1,YMax1,XMin2,XMax2,YMin2,YMax2,RelationLabel 0009fde62ded08a6,/m/0342h,/m/01d380,0.2682927,0.78549093,0.4977778,0.8288889,0.2682927,0.78549093,0.4977778,0.8288889,is 00198353ef684011,/m/01mzpv,/m/04bcr3,0.23779725,0.30162704,0.6500938,0.7335835,0,0.5819775,0.6482176,0.99906194,at 001e341dd7456c72,/m/04yx4,/m/01mzpv,0.07009346,0.2859813,0.2332708,0.5203252,0.14018692,0.31588784,0.32082552,0.48405254,on 001e341dd7456c72,/m/04yx4,/m/01mzpv,0,0.28317758,0.26454034,0.5540963,0.2224299,0.3411215,0.3908693,0.4859287,on 001e341dd7456c72,/m/01599,/m/04bcr3,0.5551402,0.6084112,0.50343966,0.5490932,0.5411215,0.95981306,0.5090682,0.78361475,on 001e341dd7456c72,/m/04bcr3,/m/01d380,0.7392523,0.9990654,0.3889931,0.518449,0.7392523,0.9990654,0.3889931,0.518449,is ...
ImageID:这个关系实例所在的映像。
LabelName1:关系三元组中第一个对象的标签。
XMin1,XMax1,YMin1,YMax1:第一个对象的包围框的规范化包围框坐标。
LabelName2:关系三元组或属性中的第二个对象的标签。
XMin2, XMax2, YMin2, YMax2:如果是一对对象之间的关系:第二个对象的边界框的规范化边界框坐标。对于对象-属性关系(RelationLabel="is"):第一个对象的规范化边界框(重复)。在本例中,LabelName2是一个属性。
RelationLabel:关系的标签(属性为“is”)。
Image Labels
人工验证和机器生成的图像级标签:
ImageID,Source,LabelName,Confidence 000026e7ee790996,verification,/m/04hgtk,0 000026e7ee790996,verification,/m/07j7r,1 000026e7ee790996,crowdsource-verification,/m/01bqvp,1 000026e7ee790996,crowdsource-verification,/m/0csby,1 000026e7ee790996,verification,/m/01_m7,0 000026e7ee790996,verification,/m/01cbzq,1 000026e7ee790996,verification,/m/01czv3,0 000026e7ee790996,verification,/m/01v4jb,0 000026e7ee790996,verification,/m/03d1rd,0 ...
Source:指示如何创建注释:
- verification 是由谷歌的内部注释器验证的标签。
- crowdsource-verification 是指通过众包app验证标签。
- machine 是机器生成的标签。
Confidence:在图像中出现的经过人类验证的标签置信度= 1(正面标签)。经过人为验证的标签在图像中不存在时,置信度为0(负标签)。机器生成的标签具有部分置信度,通常>= 0.5。信心越高,被贴上假阳性标签的可能性就越小。
Class Names
MID格式的类名可以通过查看class description.csv转换为它们的简短描述:
... /m/0pc9,Alphorn /m/0pckp,Robin /m/0pcm_,Larch /m/0pcq81q,Soccer player /m/0pcr,Alpaca /m/0pcvyk2,Nem /m/0pd7,Army /m/0pdnd2t,Bengal clockvine /m/0pdnpc9,Bushwacker /m/0pdnsdx,Enduro /m/0pdnymj,Gekkonidae ...
注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:
/m/02wvth,"Fiat 500 ""topolino""" /m/03gtp5,Lamb's quarters /m/03hgsf0,"Lemon, lime and bitters"
Image IDs
它有图像url、它们的OpenImages id、旋转信息、标题、作者和许可信息:
ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title, OriginalSize,OriginalMD5,Thumbnail300KURL,Rotation ... 000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\ https://www.flickr.com/photos/brokentaco/5215831864,\ https://creativecommons.org/licenses/by/2.0/,\ "https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\ 211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg,0 ...
每个图片都分配了一个惟一的64位ID。在CSV文件中,它们以零填充的十六进制整数的形式出现,比如000060e3121c7305。
数据与目标网站上显示的一样。
- OriginalSize 是原始图像的下载大小。
- OriginalMD5 是base64编码的二进制MD5,如下所述。
- Thumbnail300KURL 是到具有~300K像素(~640x480)的缩略图的可选URL。它提供了方便的下载数据,在没有更方便的方式获得图像。如果缺少OriginalURL,则必须使用它(如果需要,则将其调整为相同的大小)。这些缩略图是动态生成的,它们的内容甚至分辨率可能每天都不一样。
- Rotation 是图像逆时针旋转的角度数,以匹配Flickr用户期望的方向(0,90,180,270)。nan表示此信息不可用。有关此问题的更多信息,请查看此公告。
Hierarchy for 600 boxable classes
在这里可以将box - able类的集合作为层次结构查看,或者下载为JSON文件:
References
-
"We don't need no bounding-boxes: Training object class detectors using only human verification, Papadopolous et al., CVPR 2016.
-
"Extreme clicking for efficient object annotation", Papadopolous et al., ICCV 2017.
-
"Large-scale interactive object segmentation with human annotators", Benenson et al., CVPR 2019.
上一篇: 利用帧差法检测运动物体