AlphaGo只是开头:深度解析谷歌人工智能计划
via MIT Technology Review
逸炫
打败了世界围棋冠军,这只是万里长征的第一步。
加了垫子的墙,昏黄的灯光,花样墙纸的天花板。这里一点也不像能做出改变世界的尖端发现。但在这些让人快要幽闭恐惧症的模拟走廊里,Demis Hassabis认为,他在为创造足以解决人性最大难题的软件铺设道路。
“我们的目标很大,”Hassabis说,他冷静稳健的风格让人无法想象他概念的大胆。他在谷歌DeepMind领导一只有200名计算机科学家和神经学家的团队,DeepMind就是在3月初打败了人类围棋大师的AlphaGo背后的位于伦敦的团队,创造了计算机历史上的里程碑。
但是,Hassabis说这只是万里长征的第一步,作为人工智能领域的阿波罗计划,目标“解决智能问题,然后用它解决其他所有问题。”如今判断智能软件的标准具体到了一个特定的任务——面部识别。Hassabis希望创造他所称的“综合智能”——像人类一样可以学会完成任何任务。他展望未来人工智能可以做各种事情,通过形成和测试科学假说推进医学发展,或者用轻巧灵活的机器人身体跳来跳去。
要实现这个目标,DeepMind的软件必须超越黑白分明、秩序井然的围棋世界。它需要掌握乱糟糟的真实世界——或者从一个昏暗的、像素化的模拟世界开始。DeepMind的模拟世界叫做Labyrinth,公司在用它让软件尝试非常复杂的任务,例如在迷宫中导航。这会推动DeepMind研究员钻研如何制造更智能的软件,推动软件学会面对更难的决策和问题。他们利用了之前AlphaGo以及DeepMind更早炫耀过的技能,DeepMind学会玩二十世纪八十年代的太空入侵者等复古Atari游戏,玩得比人类都好。但要成功,Hassabis必须想出办法,解决人工智能领域中一些年代已久的问题。
自我改善
39岁的Hassabis此生很多时间都在研究如何创造智能。当年象棋神童提早从高中毕业,开始了视频游戏职业生涯。后来他获得了神经科学的博士学位,发布了关于记忆与想象的影响广泛的论文。
Hassabis在2011年联合创建了DeepMind,将他所学的生物智能转化到机器。公司在2013年12月发布了学会Atari游戏的软件,在2014年初被谷歌收购,据报道金额达4亿英镑,当时超过六亿美元。DeepMind快速扩张,新增雇佣几十名研究人员,在顶尖机器学习和人工智能会议发表大量论文。今年一月,它宣布了AlphaGo的存在,以及AlphaGo在2015年12月打败了欧洲最强围棋玩家的消息。本月初,AlphaGo打败了世界围棋冠军李世石。
增强学习方法,是让机器学习软件学会更复杂任务的关键。
Atari游戏和围棋非常不同,但是DeepMind用同样的方法解决了他们,从动物的训练方式中获得灵感:驯兽师可以用奖励与惩罚教会动物新的招数。通过被称为“加强学习”的方法,软件被设计为可以探索新的环境,调整自己的行为,以获得某种虚拟奖励。
举个例子,DeepMind的Atari软件被设计为只能控制和看见游戏屏幕,具有增加分数的动机。几个小时的训练就可以让软件提着鞋带起身,打到人类专家。
AlphaGo结合了增强学习和其他元素,例如一个分析几千万个专业围棋玩家棋谱从而学会评估不同走法的系统,还有一个搜索机制来选择最佳走法。但是,让AlphaGo能够打败世界冠军的,是与自己练习几百万次的增强学习。
via MIT Technology Review
Hassabis认为,增强学习方法是让机器学习软件学会更复杂任务的关键,比软件现在能玩的要复杂得多,例如记录我们的话语、理解图片的内容。“我们不认为仅仅观察就足够智能,你还必须行动。”他说,“最终,这是唯一你可以理解世界的方法。”
DeepMind的三维环境Labyrinth,基于一个开源的第一人称射击游戏Quake,专门为验证该想法而设计。公司已经用它来让机器参与游戏,60秒内探索随机生成的迷宫,收集苹果或找到出口(可通往另一个随机生成的迷宫)可获得分数。未来的挑战可能要去更复杂的计划性——例如,懂得要是可以打开门。公司还会以其他方式测试软件,并在考虑挑战星际争霸和扑克牌。但是一段时期内,在Labyrinth里设置越来也难的挑战将会是主要的研究方式,Hassabis说,“接下来几年都够用了。”
增强学习在未来的二至三年,会像深度学习一样影响巨大。
其他研究人工智能的公司和研究员会紧密关注着。DeepMind增强学习的成功让很多机器学习研究员吃了一惊。这项技术是二十世纪八十年代创建的,之前没有其他训练软件的方法那么广泛使用和效果强大,华盛顿大学研究机器学习的教授Pedro Domingos说。DeepMind加强了这项技术,把它和深度学习方法结合起来。深度学习最近有了重大突破,能让计算机解码图片等信息,引发了最近机器学习的热潮。
“DeepMind所做的很了不起,”Domingos说。但是他还说,Hassabis想做的是一个超越现在所有研究的火箭,还是后院里放的烟火,现在要下定论还为时过早——近期让人眼花缭乱的成功不一定能持续。“Demis对增强学习的乐观态度不只是处于成功经验,”Domigos说,“机器学习和人工智能领域中,进步不是线性的;我们有时候会突飞猛进,有时候会慢慢前行。”
Hassabis承认,业界”很多“人都怀疑增强学习的潜能,但是他们不会买账。“我们越是深入,越是感觉我们的理论是正确的,我想我们正在改变整个领域,”他说。“我们认为增强学习在未来的二至三年会像深度学习一样影响巨大。”
安全第一
DeepMind的成功目前支持Hassabis关于增强学习会有很多应用的说法。AlphaGo的成功让很多专业围棋手和计算机专家惊讶,因为围棋实在非常复杂,很难让基本依靠计算不同走法可能结果的软件胜利,也就是1997年IBM的深蓝用来打败世界象棋冠军Garry Kasparov的方法。平均来说,象棋玩家每一步有35种可能的走法;在围棋中,有250种。围棋中位置可能性排列组合的数量,比宇宙中原子的数量都多。“象棋是一种计算游戏,”Hassabis说,“围棋太复杂,所有玩家靠的是直觉。在类别上完全不一样。你可以把AlphaGo想象成一个超级人类的直觉,而非超级人类的计算。”
围棋世界冠军李世石回顾他1-4败于AlphaGo的比赛。图片来源MIT Technology Review。
不论你是否同意AlphaGo具有直觉,能让软件掌握更复杂的任务显然很有用。DeepMind正在和英国国家健康服务的项目合作,训练软件帮助医务工作人员发现肾脏问题的迹象,这些问题经常被忽视,并造成大量可以避免的死亡。团队还在和谷歌业务团队合作,Hassabis说他的技术可以让虚拟助理浮现,改善推荐系统,这对于YouTube等产品非常重要(类似的系统也是谷歌广告产品的基础)。
能解决问题的一个非主流办法是,学习真实的大脑。
更远的未来,DeepMind需要很多突破,才能往Hassabis解决智能的目标靠近,即使是未来几年都在Labyrinth里面试验。最关键的一个缺口是一种叫做分块的技能,人类和动物的大脑用以处理世界的复杂性。Hassabis举了个去机场的例子,你可以想好如何去机场并且完成计划,而不用考虑走去门口的时候每一步走在哪儿,如何转动门把手或控制每一个肌肉纤维。我们可以用高层次的概念来计划和行动,而不用考虑每一个细节,并且通过重新组合我们熟悉的“分块”,或者概念,来适应新环境。“这大概是人工智能领域内未解决的最核心问题之一。”Hassabis说。
这是许多研究团队在钻研的问题,包括其他谷歌团队。但是,DeepMind希望能解决问题的一个非主流办法是,学习真实的大脑。公司有一个由著名研究员Mattew Botvinick领导的神经科学家团队,他直到最近一直是普林斯顿大学的教授。与大部分神经科学研究不同的是,他们不仅要研究大脑如何运作,还要告诉DeepMind如何设计软件。
有一个近期试验测试了Hassabis关于人脑如何组织概念的理论,利用一个伪造记忆的标准程序。它给测试对象呈现一系列相关词,例如“冷”、“雪”和“冰”。人们经常错误地记得听到一些其他相关词,例如”冬天“。
3月,AlphaGo与李世石的比赛进行中的DeepMind员工。via MIT Technology Review。
“根据我的机器学习概念,我想这一定暗示了那种概念信息如何在大脑中组织,“Hassabis说。DeepMind团队研究出一个大脑的颞叶前部如何组织概念的理论, 通过观察正在进行记忆任务的人的大脑,确认了理论的假说。这项结果可能会改变DeepMind设计人工神经网络来呈现信息的方式。
DeepMind的”待发现“列表上还有,将它在软件上做过的、抓取文本意义的实验,与Labyrinth中漫游的软件实验结合起来——有一个可能性是在虚拟空间内开始摆上标识。Hassabis说,他还在计划一种“野心勃勃”的方法,来测试是否准备好面对比Labyrinth更加真实的世界。他希望DeepMind未来可以控制机器人,他认为机器人受限于软件对世界的理解能力。“有一些很了不起的机器人,不能充分发挥他们的能力因为还没有算法。”他说。
如果成功,那会引发一些关于人的本质定义、以及人工智能的合理使用范围等严肃的哲学和伦理问题。Hassabis说,他鼓励人们讨论这项技术可能的风险。(虽然他满意地表示,物理学家Stephen Hawking在于他见面后,已经停止警告人工智能会毁灭人类;将人工智能研究比作”召唤魔鬼“的Tesla创始人Elon Musk也被泼了冷水。)DeepMind有一个内部的哲学家、律师和商人团队。Hassabis说也许”很快“就会公布他们的名字,以及他也在努力召集一队类似的外部团队,在多个计算机公司间共享。
DeepMind的工程师们设计新实验暂时还不需要伦理学指导,Hassabis说。”距离我们能担心的成果还远着呢,“他说,”更重要的是让所有人加快速度。“如果所有都如Hassabis所愿,他的伦理团队才能真的有点事儿做。
Via MIT Technology Review