机器人讨价还价?Facebook教机器与人类谈判
尽管与苹果、微软和亚马逊相比,Facebook在人工智能对话方面成绩并不显著,但最近该公司也对智能对话系统产生了浓厚兴趣并为此发表相关文章。
随着Siri、Cortana和Alexa的出现,进军智能对话越来越困难,如今智能对话需要的再也不仅仅是靠良好的语音识别来给用户带来极致体验了。在这一过程中,Facebook一直在不断改进机器对自然语言的理解和文本生成方面的问题。今天,Facebook人工智能研究团队在其投资组合中发表了一篇论文,将谈判引入到对话中。Facebook的团队把游戏理论与深度学习结合起来,让机器与人类进行谈判。通过把在游戏场景中更常用的技术运用在对话机器中,Facebook就能够创造出能够进行复杂谈判的机器。
首先,该程序要构想出一个虚拟的谈判场景。例如:亚马逊的土耳其机器人就曾经被赋予了一个明确的价值函数,然后要求该机器人用自然语言与人类进行谈判,通过把一些随机物品进行分割来获得最大奖励(奖励包括五本书、三顶帽子和两个球)。游戏被限定在10轮对话框中,规则规定,如果超过10轮那就没人能得到任何奖励。因为每个人都有明显的隐藏偏好,所以必须进行对话,以找出应该给哪个人提供哪些物品。在互动过程中,机器自然而然地采用了许多常见的谈判策略,比如说把重点放在一个价值较低的项目上,试图把它作为一个更有价值的谈判筹码来误导人类。
Facebook的新技术以一种决策树的形式出现。决策树是许多智能系统的关键组成部分。它可以让人们从现在来为未来的事情进行建模并做出决策。想象一下,就像在井字棋这样的游戏中,任何一个特定点上都有一种游戏规则,有一个有限的选项集。在这种情况下,每一步都有一个预期值。人类通常不会以一种明确的方式来考虑这个值,但是如果有人在玩游戏的时候分解了整个决策过程,实际上他就是在脑子里进行了整个数学计算。像井字棋这样的游戏非常简单,可以在决策树中完全解决。还有更复杂的游戏如象棋,需要运用策略来减少步数,但是这在现实生活中几乎不可能实现。但即使是这样,相比较对话来说,国际象棋和围棋也是属于简单的。
对话不是从有限的结果中得出的。这意味着,对于任何问题,都有无数可能的人类反应。为了模拟谈话,研究人员必须付出难以想象的努力,把不确定的问题确定在合理的规模和范围之内。选择一种谈判模式,这是可能的。语言本身可以存在无限多种表达方式,但其意图通常是表达一些简单的结果,比如:我想接受或拒绝它。但即使是在一个有界的世界里,要让机器以一种可信的方式与人类互动还是很困难的。为了达到这一效果,Facebook在两个人之间的谈判中训练了自己的模型。一旦完成这一任务,机器就可以通过强化学习来进行谈判。在每一轮谈话结束时,代理人员都获得了奖励,以指导和改进工作。
研究人员迈克尔刘易斯和Dhruv Batra解释说,他们的算法既可以帮助人类确保其作出最好的决定,也可以防止个人做出错误决定,并且在后者做得更好。这一点非常重要,想象一下,一个日历应用程序,它不会去安排会议,让会议在每个人的最佳时间进行,而它做的是设法确保会议能够顺利开展。
但是和大量的研究一样,这项技术的应用并不像论文中模拟的那样明确。工程师们常常利用机器之间的敌对关系来改善成果,比如利用建立敌对网络来生成培训数据,让机器生成数据,让另一台“守门人”机器来学习。这种半合作半敌对的关系,就像教练和运动员之间的关系,能进一步连接游戏理论和机器学习。Facebook已经开发了这项研究项目的代码。