教授机器视物和理解——Facebook人工智能研究进展
程序员文章站
2022-05-08 15:54:14
...
许多人认为Facebook只是一个蓝色图标的大型应用,或者认为只是个网站,但是近年来,我们已经建立了一套应用和服务体系,为用户之间相互交流和分享提供了广泛的方式。从文本到照片,再到视频以及将来的虚拟现实(VR),这个世界产生的信息量无时不刻都在增加。事实上,我们为您提供新闻材料所需要的数据量以每年50%的增量增长——因此我可以说,我们的标准工作时间跟不上这增长速度来处理这些数据。我能够想到跟上这种速度的最好方法是,构建一套智能系统来帮助我们清理泛滥的数据。
为了解决这个问题,Facebook AI研究院(FAIR)正在指导展开雄心勃勃的研究,诸如图像识别和自然语言理解等领域。他们在这些领域发表了一系列开创性的论文,而今天,我们将要宣布另外一些里程碑式的研究成果。
目标检测和记忆网络
第一个里程碑是计算机视觉的子领域,也就是目标检测。
目标检测是件困难的事情,以下图为例:
在图中你看到了多少匹斑马?很难看清,对吗?想想这对计算机有多么艰难,它压根就看不到条纹——它只能看到像素点。我们的研究人员一直在努力训练系统来识别像素中的模式,让计算机在一张又一张的照片中,区分物体的能力能够与人类不相上下甚至超过人类——业内叫做“分割”——然后识别每一个物体。我们最新的系统在分割图像的时候比其他大多数系统快30%,而使用的训练数据则是十分之一,这套系统将在下个月的NIPS上展示。
下一个里程碑式的研究是自然语言理解,使用了新技术记忆网络(即MemNets)带来了新的进展。MemNets在卷积神经网络中加入了一种短期记忆来推动深度学习系统,让这些系统可以像人类那样理解语言。今年的早些时候,我展示了MemNets工作的案例,阅读和回答关于《指环王》简短概要的问题。现在,我们已经将系统基于十多行文字阅读和回答问题扩展到能够在数据集上回答超过10万个问题,比之前要大几个数量级。
在计算机视觉和自然语言理解方面取得的成就本身就令人兴奋了,但真正令人兴奋的是将二者结合起来。看看下面这个例子:
视频:https://www.facebook.com/Engineering/videos/10153621574817200/
这个案例中的系统叫做VQA或者visual Q&A,你可以看到将MemNets和图像识别结合起来会发生什么:我们可以让人们提出照片中有什么的问题。试想一下,这种技术对世界上数以百万计有视觉障碍的人来说意味着什么。当在朋友之间分享照片时,他们并不会被冷落,而相反,他们能够参与其中进行互动。虽然这项技术还处于早期研发阶段,但是它的前景是明朗的。
预测和规划
我们在AI方面还有更大更长远的挑战。其中包括一些无监督和预测学习,系统可以通过观察(而不是通过直接指令,即监督学习)来学习,然后基于这些观察进行预测。这些都是你和我天生就会的——比如,没有人要到大学里才会学到如果将笔推下桌子它会掉落在地面上——并且人类大部分学习都是这样进行的。但是计算机仍然无法做到这一点——我们在计算机视觉和自然语言理解所取得的进展仍然由监督学习推动。
FAIR团队最近开始研究这些模型,你可以在下面的案例中看到我们一些早期成果。该团队已经开发了一套系统,它可以“看”一系列视觉测试用例——在此情况下,不可靠堆放的方块可能会也可能不会掉落——然后预测输出。在短短几个月的工作之后,这个系统的预测准确率达到了90%,比大部分人类的预测要准确。
视频:https://www.facebook.com/Engineering/videos
长远研究的另外一个领域是教系统进行规划。我们构建了一个系统来帮助实现这个目标,一个为棋盘游戏Go设计的AI玩家。使用游戏来训练机器在AI研究领域是很常见的做法。在过去的几十年中,AI系统在跳棋,国际象棋,甚至Jeopardy等方面超过了人类。但是,尽管在Go游戏AI玩家方面的研究已近50载,人类最好的棋手还是要比最好的AI玩家要更出色。这是部分因为Go中不同着子方法。比如,国际象棋中,在前两步着子之后,接下来会有400中可能的应对方法。在Go中,将会有近130000种。
视频:https://www.facebook.com/Engineering/videos/10153621562717200/
我们在Go玩家上工作了短短几个月,但是它已经能和一个已经发布的AI系统齐头并进了,并且它已经能和人类高手玩家相媲美。我们将传统的基于搜索的方法——随着游戏的进行对每个可能的着子方式建模——与我们计算机视觉团队开发的模式匹配系统相结合,以此来实现这个功能。最棒的人类Go玩家善于随着比赛的发展识别棋盘上的模式,使用这种技术,我们的AI玩家可以模拟人类的这种行为——可以得到非常准确的初步结果。
那么当你把这些全部聚集在一起会发生什么呢?Facebook最近正在运行一个小型的人工智能助手M的测试。不像其他的机器驱动服务,M考虑的更长远:它可以替你完成任务。它可以购物;安排礼品送到您心爱的人手中;预定餐厅,旅行安排,约会等等。这是一个巨大的技术挑战——这很难起步,M是一套人类训练的系统:人类操作员来评估AI给出的建议,然后他们对此进行回应,而AI则观察学习这些人类给出的回应。
我们最终希望将这套服务扩展到全球数十亿用户,但为了要做到这点,AI在没有人类帮助的情况下,需要能够自身处理大部分请求。要做到这一点,我们需要在M上建立上图中所有不同的功能——语言,视觉,预测和规划,这样它就能理解每个请求背后的上下文信息,然后未雨绸缪。这确实是一个巨大的挑战,而且我们才刚刚开始。但是早期研究结果是有希望的。比如,最近我们在M上部署了新开发的MemNets系统,促使M加快了学习:当有人要求M帮忙预定鲜花,M现在知道首先要问的两个问题是“你的预算是多少?”和“鲜花要送到哪?”
最后一点:有些人可能会这么认为,“那又怎样?人照样能够做这些事情”。当然,你说的没错——但我们大多数人没有专门的私人助理。而这就是类似于M服务提供的“强大能力”:我们可以为这世界上数十亿人提供他们自己的数字助理,这样他们就能够花费更少的时间在每天琐事上,而有更多时间处理真正重要的事务。我们的AI研究——探索连通性的全新方式以及使用Oculus VR身临其境地感受分享的经验——需要长期的努力。明白这一切技术原理,这将需要多年的艰苦工作,但如果我们能够正确理解这些新技术,我们离连通世界又近了一步。
想要了解更多关于我们人工智能研究以及已经产生的影响,那就看看这个视频。
视频:https://www.facebook.com/Engineering/videos/10153621590557200/
英文原文:Teaching machines to see and understand: Advances in AI research (译者/刘翔宇 审校/赵屹华、朱正贵 责编/仲浩)
关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。
为了解决这个问题,Facebook AI研究院(FAIR)正在指导展开雄心勃勃的研究,诸如图像识别和自然语言理解等领域。他们在这些领域发表了一系列开创性的论文,而今天,我们将要宣布另外一些里程碑式的研究成果。
目标检测和记忆网络
第一个里程碑是计算机视觉的子领域,也就是目标检测。
目标检测是件困难的事情,以下图为例:
在图中你看到了多少匹斑马?很难看清,对吗?想想这对计算机有多么艰难,它压根就看不到条纹——它只能看到像素点。我们的研究人员一直在努力训练系统来识别像素中的模式,让计算机在一张又一张的照片中,区分物体的能力能够与人类不相上下甚至超过人类——业内叫做“分割”——然后识别每一个物体。我们最新的系统在分割图像的时候比其他大多数系统快30%,而使用的训练数据则是十分之一,这套系统将在下个月的NIPS上展示。
下一个里程碑式的研究是自然语言理解,使用了新技术记忆网络(即MemNets)带来了新的进展。MemNets在卷积神经网络中加入了一种短期记忆来推动深度学习系统,让这些系统可以像人类那样理解语言。今年的早些时候,我展示了MemNets工作的案例,阅读和回答关于《指环王》简短概要的问题。现在,我们已经将系统基于十多行文字阅读和回答问题扩展到能够在数据集上回答超过10万个问题,比之前要大几个数量级。
在计算机视觉和自然语言理解方面取得的成就本身就令人兴奋了,但真正令人兴奋的是将二者结合起来。看看下面这个例子:
视频:https://www.facebook.com/Engineering/videos/10153621574817200/
这个案例中的系统叫做VQA或者visual Q&A,你可以看到将MemNets和图像识别结合起来会发生什么:我们可以让人们提出照片中有什么的问题。试想一下,这种技术对世界上数以百万计有视觉障碍的人来说意味着什么。当在朋友之间分享照片时,他们并不会被冷落,而相反,他们能够参与其中进行互动。虽然这项技术还处于早期研发阶段,但是它的前景是明朗的。
预测和规划
我们在AI方面还有更大更长远的挑战。其中包括一些无监督和预测学习,系统可以通过观察(而不是通过直接指令,即监督学习)来学习,然后基于这些观察进行预测。这些都是你和我天生就会的——比如,没有人要到大学里才会学到如果将笔推下桌子它会掉落在地面上——并且人类大部分学习都是这样进行的。但是计算机仍然无法做到这一点——我们在计算机视觉和自然语言理解所取得的进展仍然由监督学习推动。
FAIR团队最近开始研究这些模型,你可以在下面的案例中看到我们一些早期成果。该团队已经开发了一套系统,它可以“看”一系列视觉测试用例——在此情况下,不可靠堆放的方块可能会也可能不会掉落——然后预测输出。在短短几个月的工作之后,这个系统的预测准确率达到了90%,比大部分人类的预测要准确。
视频:https://www.facebook.com/Engineering/videos
长远研究的另外一个领域是教系统进行规划。我们构建了一个系统来帮助实现这个目标,一个为棋盘游戏Go设计的AI玩家。使用游戏来训练机器在AI研究领域是很常见的做法。在过去的几十年中,AI系统在跳棋,国际象棋,甚至Jeopardy等方面超过了人类。但是,尽管在Go游戏AI玩家方面的研究已近50载,人类最好的棋手还是要比最好的AI玩家要更出色。这是部分因为Go中不同着子方法。比如,国际象棋中,在前两步着子之后,接下来会有400中可能的应对方法。在Go中,将会有近130000种。
视频:https://www.facebook.com/Engineering/videos/10153621562717200/
我们在Go玩家上工作了短短几个月,但是它已经能和一个已经发布的AI系统齐头并进了,并且它已经能和人类高手玩家相媲美。我们将传统的基于搜索的方法——随着游戏的进行对每个可能的着子方式建模——与我们计算机视觉团队开发的模式匹配系统相结合,以此来实现这个功能。最棒的人类Go玩家善于随着比赛的发展识别棋盘上的模式,使用这种技术,我们的AI玩家可以模拟人类的这种行为——可以得到非常准确的初步结果。
那么当你把这些全部聚集在一起会发生什么呢?Facebook最近正在运行一个小型的人工智能助手M的测试。不像其他的机器驱动服务,M考虑的更长远:它可以替你完成任务。它可以购物;安排礼品送到您心爱的人手中;预定餐厅,旅行安排,约会等等。这是一个巨大的技术挑战——这很难起步,M是一套人类训练的系统:人类操作员来评估AI给出的建议,然后他们对此进行回应,而AI则观察学习这些人类给出的回应。
我们最终希望将这套服务扩展到全球数十亿用户,但为了要做到这点,AI在没有人类帮助的情况下,需要能够自身处理大部分请求。要做到这一点,我们需要在M上建立上图中所有不同的功能——语言,视觉,预测和规划,这样它就能理解每个请求背后的上下文信息,然后未雨绸缪。这确实是一个巨大的挑战,而且我们才刚刚开始。但是早期研究结果是有希望的。比如,最近我们在M上部署了新开发的MemNets系统,促使M加快了学习:当有人要求M帮忙预定鲜花,M现在知道首先要问的两个问题是“你的预算是多少?”和“鲜花要送到哪?”
最后一点:有些人可能会这么认为,“那又怎样?人照样能够做这些事情”。当然,你说的没错——但我们大多数人没有专门的私人助理。而这就是类似于M服务提供的“强大能力”:我们可以为这世界上数十亿人提供他们自己的数字助理,这样他们就能够花费更少的时间在每天琐事上,而有更多时间处理真正重要的事务。我们的AI研究——探索连通性的全新方式以及使用Oculus VR身临其境地感受分享的经验——需要长期的努力。明白这一切技术原理,这将需要多年的艰苦工作,但如果我们能够正确理解这些新技术,我们离连通世界又近了一步。
想要了解更多关于我们人工智能研究以及已经产生的影响,那就看看这个视频。
视频:https://www.facebook.com/Engineering/videos/10153621590557200/
英文原文:Teaching machines to see and understand: Advances in AI research (译者/刘翔宇 审校/赵屹华、朱正贵 责编/仲浩)
关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。