DeepMind帮AI打通任督二脉:能同时学玩10款游戏
谷歌公司旗下公司号称已经帮人工智能打通了任督二脉。
3月14日,谷歌公司旗下的人工智能公司DeepMind发布研究论文,称其攻破了人工智能(AI)底层记忆技术上的难题,或将能够训练AI系统完成多种任务,而不像现在仅具备单项技能。
DeepMind在《美国国家科学院学报》(PNAS)上发表了题为《克服神经网络中的灾难性遗忘》(Overcoming Catastrophic Forgetting in Neural Networks)的论文,称研究人员利用监督学习和强化学习,克服了AI研究中神经网络“灾难性遗忘”的问题,以拓宽AI系统的应用面。也就是说,将来的AI可能不再被用作某一项特定用途,而是能够在不同任务之间切换,实现序列学习(Sequences Learning)。
“灾难性遗忘”是认知科学中的术语,在深度神经网络设计里,每一次被提供新的数据时,它就会自动覆盖前一个任务学习到的知识,这是AI技术中的致命缺陷。
该论文在描述其研究意义时写道:“深度神经网络是当前解决一系列难题(包括语言翻译、图片分类、图像生成)最成功的机器学习技术。但是,该技术不能像人类一样有序地进行多任务学习。在本次研究中,我们提出了一项可行的解决方法,即通过计算已经学习到的知识的重要性权重比例,并加以保护,以达到有序训练。”该研究的灵感来自神经科学的突触整合,促使多学科的再强化学习问题有序进行。
目前,AI技术还只能针对特定行业或项目运作,例如用于金融服务、法律服务、围棋比赛等,它们都是独立分开的系统。一旦DeepMind的研究实现应用,AI就能实现跨行业、跨项目的应用,大大提升AI系统的连接和服务面。
神经科学家认为,在人类大脑中,针对特定项目知识的神经元之间的重要连接很少发生变化,这似乎是人类能记住特定项目知识的关键。于是DeepMind的研究人员基于突触整合理论,创造出一种让神经网络记忆的新方式。哺乳动物和人类的大脑固化以往获得的技能和记忆的理论也对本次研究产生了启发。
DeepMind的EWC算法帮助有序训练神经网络。
神经网络由多个连接组成,其连接方式与大脑神经元的连接方式非常相似。研究人员这次研发的算法叫“弹性权重固化”(Elastic Weight Consolidation,EWC),能够计算出每个连接对该任务知识的重要性,并赋予数学上的权重比例,再加以保护以免被修改。这种保护的强度与连接的重要性成正比,高权重赋值将减缓特定连接被改写的速度。通过这种方式,神经网络就可以保留原有的知识,并学习新的任务。
“我们已经证明能够有序训练神经网络,这一技术从前被认为是AI研究中的底层技术限制。”该论文的第一作者,DeepMind研究员James Kirkpatrick说。
通过训练神经网络,研究人员可以将特定项目的专业知识保留很长一段时间。选择性地减缓一些知识被改写的速度,可以做到让学习有序进行。
研究人员让算法随机玩10款经典的Atari游戏,每一项游戏都必须从零开始学习。DeepMind此前已经研发出了一款能够比人类玩家玩这些游戏玩得更好的AI系统,但是只能一次性学会玩一个游戏。如果它之后学习玩另一个游戏,就要从头再来。
AI学习两项任务过程的示意图:使用EWC算法的深层神经网络能够学习玩一个游戏后,转移到下一个全新的游戏。
这套新的EWC算法能够一次性学习10个游戏,并且其平均水平跟人类水平相当。但是研究人员也承认,其对10个游戏的平均掌握能力,不及从前针对一项游戏专项训练的水平。
不过Kirkpatrick也表示,这项突破是否能够提升学习效率目前尚不明确。