AI背后的临时工:谷歌如何训练AI识别视频质量?
雷锋网按:我们都关注人工智能有多厉害,它们可以在围棋、德州扑克和人脸识别上战胜人类,但人工智能变得聪明,背后是海量数据的支撑,而且这些数据是需要标注的。因而随着人工智能的繁荣,从事数据标注的人也越来越多。Wired的这篇文章就介绍了谷歌如何雇佣人工标注YouTube视频来训练AI。本文由雷锋网编译。
目前,Google 的“广告质量评估员”已广泛存在于全国各地。这些临时雇员通常由外部机构代为聘请,其工作即是为 YouTube 视频过滤暴力、敏感广告信息。这一工作目前单凭电脑本身尚无法完成,Google现在也似乎迫切需要这些人的帮助。
YouTube 每天都会出售数百万条视频广告,广告播出位置会由系统自动分配,所以广告商往往不知道自己的广告具体会在哪条视频后播放。最近,这种“不确定性”令 Google 大为头疼,公司甚至因此受到相关方的审查。
Google 方面则一直积极解释,以防止舆论扩大化。在他们看来,媒体其实夸大了视频广告问题,目前已标记的视频数尚未达总数的千分之一,Google 首席营销官 Philipp Schindler 也表示这个问题根本不足为训。
由于 Google 超过90 %的收入都来源于广告,因此他们也需要快速解决问题来防止广告商撤位。但是,YouTube 每天都有近60万小时的新视频上传量,如此巨大的数量使得采用人工过滤很困难,软件所要处理完成的标记量可谓“前所未有”。但问题是,公司仍然需要投入人力进行 AI 训练。因此,Google 仍然依赖于人工完成广告标记工作,以此构建好AI学习所需的数据。
评估员任务
技术公司会长期雇用内容管理员,这项工作也随着人们上传和分享量的增加而变得越来越重要。有广告评估员说,他们的角色不仅仅在于监控视频,他们会阅读评论,标记用户之间的滥用行为;会检查 Google提供的各种网站,确保符合公司标准;也会按类别进行网站分类,点击广告链接查看状态正常与否。
具体而言,某些情况下评估员们需要在不到两分钟内查看几小时长的影片,这就意味着这份工作更强调数量和速度。此外,他们也不仅只是将视频简单标记为不合适——从标题到内容,他们都需要进行细致的评估并进行分类。存在评估内容与既定已有类别不匹配的情况时,他们会将材料标记为“不可评估类”。
也多名广告评估员说,公司要求他们观看内容震撼的视频,比如有人试图在车上杀自己的狗——视频中的人放火烧了自己的车,然后走出来以一枪结束了自己的生命。此外,还有人会看暴力侵害妇女儿童和动物的视频。其实评价员们并不知道 Google 是如何进行视频任务选取与下达的- 他们只有在开始工作的才能看到视频的标题和缩略图。
总而言之,Google 仍然需要人力来协助处理 YouTube 的广告问题。公司高管和代表们也一再强调,只有机器智能才能解决 YouTube 中的规模化任务问题,但是在 Google 机器或其他任何人都能够自觉识别不宜言论之前,这样的工作仍然需要依赖人去完成。
Google 发言人 Chi Hea Cho 说:“我们一直将技术与人类评论结合进行综合分析已被标记的内容,因为对于视频的理解是很主观的。最近我们也增加人力加快评估速度,这些评论有助于我们完善算法很有帮助。”
评估员来源
据悉,广告质量评估员这一工作开始于 2004年。雇佣机构的始祖是ABE,他们会付给大家每小时 20 美元的薪水,但是 2006 年 WorkForceLogic 收购了 ABE 之后,评估员工作条件就不如从前了。2012 年,一家名为 ZeroChaos 的公司收购 WorkForceLogic,如今则采取合同制方式进行人员雇佣。
广告评估员可以随时随地工作,满足每周 10 小时的最低工作要求即可。只是这项工作不是那么稳定,虽然大多数人都蛮喜欢这份工作,但他们几乎没有机会成为永久的全职员工。
本次调查的广告评估员都是通过 ZeroChaos 聘用的,大家每小时赚取 15 美元,每周最多可以工作 29 个小时。如果每周工作时长达到 25 个小时,则可申请福利,但是想达到这个工作量可以说相当困难。有人说他们会面临毫无预兆就被解雇的情况,公司一封电子邮件,你们的劳务关系就终止了。
实际上由于无法与 Google 直接进行明确的沟通,评估者对这份工作会产生不安全感。谷歌只会给评估员一个通用邮箱用于工作方面的联系,并且采用自动回复方式回答大家的邮件。也就是说,Google 会告诉评估员他们所做的工作相当重要,也会非常重视工作成果评估,但他们并不会给出详细说明解释原因。
Google 会将已审查的内容整合到广告评估员的任务中用以绩效衡量。这些测试内容会通过邮件的方式混杂在日常任务中一起发给评估员们,并以最终成绩来评估大家的表现,没有通过测试的人会面临解雇危险。
即使如此,每小时 15 美元的酬劳仍然高于大多数城市的最低工资。会有人很高兴 ZeroChaos 给他的工作机会。
评估员与AI
跨技术行业的大公司雇用临时员工参加用于培训AI系统的重复任务。一位广告评估员曾在几年前参与评估了 Microsoft Bing 的搜索结果,他们每人每小时要浏览多达80页的搜索结果。LinkedIn 和 Facebook 也会通过进行类似的任务测试。
临时性工作所带来的安全感的缺乏和广泛存在的短期合同工,使得现任和之前的雇员们感到不安,他们认为,Google 正在渐渐失去系统知识和经验,这些东西原本为那些工作上投入了更多时间的雇员所掌握。他们花时间花时间训练新人,接着又把他们扫地出门,实在是浪费时间。
但是,通过人类广告评估员也许会找到能够使 AI 更为聪明的最佳做法。AI 需要许多内容输入,特别是一些令人反感的内容,所以定期输入培训人员数据更适合于训练 AI。为机器输入更为多元的信息,结果自然会更好。
另一方面,AI 研究人员普遍认为,不良的人类习气不一定会影响机器学习,反而可能会由于特别工作环境和经验而产生更微妙的影响。康奈尔大学 AI 教授 Bart Selman 说:“人们通常的观点是训连 AI 模型需要大量的信息输入。这种观点适用于一般情况,但涉及道德判断时,我们就要考虑到大多群体中会存在明显的根深蒂固的偏见的,人们认为男性会比女性更好的胜任某些工作就是明证。所以,如果你是通过一般性或以往的信息输入训练 AI,那么必然也会受这些信息中所隐藏偏见的影响。”
“你应该不想用那些普通人的日常做法来训练AI的道德吧,那些对于潜在的偏见和伦理问题有着更为深入、仔细思考的想法才是你所想要的信息输入。”Selman 说。
Google 员工在 Mountain View 总部享有绝佳的环境,而典型的广告评估员的生活却与之相差甚远。为世界上最有价值的科技公司工作意味着享有优渥的福利和极高的薪水,但也可能意味着作为临时工作者,你仅仅是在培训这些公司的机器做同样的工作。
via:wired