欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

马斯克的OpenAI自主学习机器人完胜人类Dota玩家

程序员文章站 2024-01-09 22:38:04
OpenAI的机器人刚刚在Dota2 1v1比赛中战胜了人类*职业玩家Dendi。以建设安全的通用人工智能为己任的OpenAI,通过“Self-Play”的方式,从零开始训练...

OpenAI的机器人刚刚在Dota2 1v1比赛中战胜了人类*职业玩家Dendi。以建设安全的通用人工智能为己任的OpenAI,通过“Self-Play”的方式,从零开始训练出了这个机器人。

Dota2沦陷

继横扫*的人类国际象棋大师和围棋大师后,计算机如今在风靡全球的电子游戏Dota2中战胜了世界级的职业玩家。此前未被披露的此场对决发生于Valve奖金高达2400万美元的Dota2国际邀请赛“The International”。

马斯克的OpenAI自主学习机器人完胜人类Dota玩家

Dendi(图左)在赛前与OpenAI的团队交流。

在这场一对一的对战中,OpenAI设计的一款机器人击败了职业玩家Danylo “Dendi” Ishutin,Dendi在此前的职业生涯中已赢得累计735449.4美元的奖金。OpenAI的机器人在首场对战中用时十分钟击败了Dendi,之后Dendi在第二局对战中退出并拒绝再战第三局。

马斯克的OpenAI自主学习机器人完胜人类Dota玩家

Dendi

“请放过我吧,”赛间Dendi对机器人对手这样说道。

马斯克的OpenAI自主学习机器人完胜人类Dota玩家

Elon Musk发表推文称赞OpenAI的战绩,并称其为“在电子竞技领域首个击败人类*玩家的机器人”。

OpenAI在电子竞技领域首度击败人类*玩家。这比国际象棋及围棋等游戏要复杂得多。

OpenAI的CTO Greg Brockman在赛前介绍称这一款机器人通过数千次的加以指导的自我对决进行训练,并称该机器人已经击败了数个Dota 2的职业玩家。Brockman在博客中称:“过去几周内,我们的机器人已经战胜过包括SumaiL(世界*1v1选手)及Arteezy(世界*overall选手)等多个*玩家”。

“自我对决”的理念是OpenAI研发的关键。这是一种AI系统学习解决极其复杂任务的有效方法:与太弱或太强的对手对战,它都无法从中学到东西,但自身反倒是有价值的对手。Brockman介绍道:“你可以看到AI从完全的随机状态一步步发展到如今的*水平”。

AI公司惯常用电子竞技游戏来测试他们的技术,如谷歌的DeepMind攻克“星际2”,微软的AI团队今日则宣称他们在吃豆人游戏中获取高分。

OpenAI并未打算就此停止征战的脚步。他们希望在明年的参与正式的五对五比赛。与此同时他们也对外发布了此机器人,所以任何人有兴趣均可与之对战。第一个击败此机器人的玩家则可获得Valve专设的赏金。

我们创造了在Dota2 1v1比赛中能够击败世界顶尖职业选手的AI。其完全是用self-play的方式训练,没有使用模仿学习(imitation learning)或树搜索。这对构建在混乱、包含人类行为在内的复杂场景下能够完成well-defined goals的AI系统是重要一步。

Dota 1v1是含有隐藏信息的复杂游戏。代理需要学习计划、进攻、花招以及误导对手。选手技巧和手速(每分钟动作)的关联不那么强烈,实际上,我们的AI“手速”只是一般人类选手的水平。

想要在Dota中取胜,要求选手培养出对对手的直觉,并采取相应的策略。在上述视频中,你能看到,我们的机器人已经通过完全的self-play学会了预测其他选手的动作,并在不熟悉的场景下即兴发挥,以及如何作用于选手的单位。

完全通过Self-Play的方式训练,从零达到世界*水平

OpenAI的目标是建设安全的通用人工智能。对于AI来说,Dota是一个非常理想的试验场,竞争激烈,游戏复杂。如果想在这门游戏中获得成就,就必须推进现有技术,实现技术突破。我们现在开发了一个AI,能够在Dota的1v1比赛中击败顶尖职业选手。

Dota的规则非常复杂,如果是用规则方法,那么构建出的AI一定是个蹩脚的player。所以,我们完全采用的是自我游戏(self-play)的训练方法。刚开始训练时,AI对于自己所处的世界全无认识,而只是和自己的copy比赛,这也就意味着它和它的对手永远是旗鼓相当的。它用这个方法一点点地提升,直到达到了世界上最优秀的职业运动员的水平。The International(TI)是Dota的世界锦标赛,吸引了世界各地20000名观众来观看职业运动员争夺2400万奖金。在TI上,我们派出AI和其中的多位高手进行了比赛,在比赛中,AI展现出了很强的鲁棒性和技巧,许多职业选手希望能持续和我们的AI比赛,并考虑要把它当做是一种训练手段。

马斯克的OpenAI自主学习机器人完胜人类Dota玩家

现在的这支研究团队。

下一步研究将是5v5比赛,我们希望做出5个相互协作的AI,击败人类战队。另外,我们也期待尝试把AI和人类放在同一战队中,协作取得胜利。