欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

《王者荣耀》“绝悟”升级完全体:全英雄池解禁

程序员文章站 2022-06-22 13:54:17
ai 王者「绝悟」升级了,能达到精通金庸武侠里所有武功的那种水平。今天,腾讯宣布,由腾讯 ai lab 与王者荣耀联合研发的策略协作型 ai「绝悟」推出升级版本“绝悟完全体”。...

ai 王者「绝悟」升级了,能达到精通金庸武侠里所有武功的那种水平。

今天,腾讯宣布,由腾讯 ai lab 与王者荣耀联合研发的策略协作型 ai「绝悟」推出升级版本“绝悟完全体”。

这一升级的背后,则是腾讯策略协作型 ai 算法能力的进一步提升,与之相关的研究也已被 ai *会议 neurips 2020 与*期刊 tnnls 收录。

英雄池完全解禁

在王者荣耀中,若每个职业都有 4 个紫色熟练度英雄,就能解锁“全能高手”称号。但受到练习时间与精力限制,很少有人能精通所有英雄,但「绝悟」做到了。

那么,王者再进化,将有多强?

据了解,「绝悟」一年内掌握的英雄数从 1 增加到 100+,王者荣耀英雄池也实现了完全解禁,不但掌握了所有英雄的全部技能,能应对高达 10 的 15 次方的英雄组合数变化,甚至还“自带军师”,可做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。

目前,“绝悟完全体”已在王者荣耀 app 限时开放,玩家都可与之对战,亲身体验 ai 在复杂策略、团队协作与微观操作方面的强大能力。

11 月 14-30 日,「绝悟」在 20 个关卡的能力将不断提升,最强的 20 级于 11 月 28 日开放,接受 5v5 组队挑战。

ai 教练的田忌赛马术

ai+游戏研究,是腾讯攻克 ai 的终极研究难题,也是通用人工智能(agi)的关键一步。

腾讯技术团队的长期目标不仅是让“绝悟”学会所有英雄的技能,而且每个英雄都要达到顶尖水平,可以根据阵型排列组合打出制胜局。

但难点就在于,「绝悟」的不同英雄会共享一个模型参数,从零学会单个阵容易如反掌,但面对多英雄组合时就难如登天。对战中,因为地图庞大且信息不完备,不同的 10 个英雄组合有不同的策略规划、技能应用、路径探索及团队协作方式,这将使决策难度几何级增加。

同时不可忽略的是“灾难性遗忘”问题,模型容易边学边忘,这也长期困扰着开发者。

毕竟,一场比赛胜负的关键不仅在于拥有顶尖选手,排兵布阵的教练也非常重要。

基于此,技术团队为「绝悟」找了一个能排兵布阵的 ai 教练,也就是在游戏 bp 环节(禁选英雄)的最优策略。


绝悟 vs 人类 bp 测试

受到围棋 ai 算法的启发,研究团队创新地采用了蒙特卡洛树搜索(mcts)和神经网络结合的自动 bp 模型,能够又快又准地选出具备最大长期价值的英雄。

具体来讲,先采用引入“老师分身”模型,每个 ai 老师在单个阵容上训练至精通,再引入一个 ai 学生模仿学习所有的 ai 老师。

最终,「绝悟」掌握了所有英雄的全部技能,正所谓“少林有七十二艺,功夫既有不同,练习之法,亦必各异。学者苟能尽之,则无敌于世矣。”

「绝悟」手握强兵善用兵

自然,团队的长期目标,就是要让「绝悟」手握强兵,且每个英雄都能达到顶尖水平,因此技术上有了三项重点突破:

首先,团队构建了一个最佳神经网络模型,让模型适配 moba 类任务、表达能力强、还能对英雄操作精细建模。

模型综合了大量 ai 方法的优势,如:

在时序信息上引入长短时记忆网络(lstm)优化部分可观测问题;

在图像信息上选择卷积神经网络(cnn)编码空间特征;

用注意力(attention)方法强化目标选择;

用动作过滤(action mask)方法提升探索效率;

用分层动作设计加快训练速度;

用多头值估计(multi-head value)方法降低估计方差。

其次,团队研究出了拓宽英雄池,让「绝悟」掌握所有英雄技能的训练方法——cspl(curriculum self-play learning,课程自对弈学习)。

根据下图可以看出,使用 cspl 方法扩展英雄池有明显优势。

据悉,这是一种让 ai 从易到难的渐进式学习方法——第一步是挑选多组覆盖全部英雄池的阵容,在小模型下用强化学习训练;第二步是蒸馏,把第一步得到的多个模型的能力迁移到同一个大模型中;第三步是随机阵容的强化训练,在蒸馏后的大模型里,随机挑选阵容继续强化训练和微调。

最后,团队搭建了大规模训练平台腾讯开悟(aiarena.tencent.com),依托项目积累的算法经验、脱敏数据及腾讯云的算力资源,为训练所需的大规模运算保驾护航。

2020 年 8 月,开悟平台对 18 所高校开放,未来希望为更多科研人员提供技术与资源支持,深化课题研究。

早在 2018 年 12 月的 kpl 秋季总决赛中,「绝悟」就曾公开亮相对战人类玩家。

当时,团队研发了监督学习(sl)方法,针对大局观和微操策略同时建模,使得「绝悟」同时拥有优秀的长期规划和即时操作,达到了非职业玩家的顶尖水平。

但其实,团队对于监督学习的研发一直在进行——今年 11 月 14 日起开放的绝悟第 1 到 19 级,就有多个关卡由监督学习训练而成。

理论上,监督学习训练出的 ai 表现逊于强化学习的结果,但这一方向极具研究与应用价值,相关成果也入选了顶刊 tnnls 。

如今,「绝悟」前有强兵,后有军师,不折不扣的一代宗师终于练成了。

- the end -

原文链接:雷锋网 责任编辑:随心