《王者荣耀》“绝悟”升级完全体：全英雄池解禁

程序员文章站 2022-06-22 13:54:17

ai 王者「绝悟」升级了，能达到精通金庸武侠里所有武功的那种水平。今天，腾讯宣布，由腾讯 ai lab 与王者荣耀联合研发的策略协作型 ai「绝悟」推出升级版本“绝悟完全体”。...

ai 王者「绝悟」升级了，能达到精通金庸武侠里所有武功的那种水平。

今天，腾讯宣布，由腾讯 ai lab 与王者荣耀联合研发的策略协作型 ai「绝悟」推出升级版本“绝悟完全体”。

这一升级的背后，则是腾讯策略协作型 ai 算法能力的进一步提升，与之相关的研究也已被 ai *会议 neurips 2020 与*期刊 tnnls 收录。

英雄池完全解禁

在王者荣耀中，若每个职业都有 4 个紫色熟练度英雄，就能解锁“全能高手”称号。但受到练习时间与精力限制，很少有人能精通所有英雄，但「绝悟」做到了。

那么，王者再进化，将有多强？

据了解，「绝悟」一年内掌握的英雄数从 1 增加到 100+，王者荣耀英雄池也实现了完全解禁，不但掌握了所有英雄的全部技能，能应对高达 10 的 15 次方的英雄组合数变化，甚至还“自带军师”，可做出最佳的英雄博弈策略选择，综合自身技能与对手情况等多重因素，派出最优英雄组合。

目前，“绝悟完全体”已在王者荣耀 app 限时开放，玩家都可与之对战，亲身体验 ai 在复杂策略、团队协作与微观操作方面的强大能力。

11 月 14-30 日，「绝悟」在 20 个关卡的能力将不断提升，最强的 20 级于 11 月 28 日开放，接受 5v5 组队挑战。

ai 教练的田忌赛马术

ai+游戏研究，是腾讯攻克 ai 的终极研究难题，也是通用人工智能（agi）的关键一步。

腾讯技术团队的长期目标不仅是让“绝悟”学会所有英雄的技能，而且每个英雄都要达到顶尖水平，可以根据阵型排列组合打出制胜局。

但难点就在于，「绝悟」的不同英雄会共享一个模型参数，从零学会单个阵容易如反掌，但面对多英雄组合时就难如登天。对战中，因为地图庞大且信息不完备，不同的 10 个英雄组合有不同的策略规划、技能应用、路径探索及团队协作方式，这将使决策难度几何级增加。

同时不可忽略的是“灾难性遗忘”问题，模型容易边学边忘，这也长期困扰着开发者。

毕竟，一场比赛胜负的关键不仅在于拥有顶尖选手，排兵布阵的教练也非常重要。

基于此，技术团队为「绝悟」找了一个能排兵布阵的 ai 教练，也就是在游戏 bp 环节（禁选英雄）的最优策略。

绝悟 vs 人类 bp 测试

受到围棋 ai 算法的启发，研究团队创新地采用了蒙特卡洛树搜索（mcts）和神经网络结合的自动 bp 模型，能够又快又准地选出具备最大长期价值的英雄。

具体来讲，先采用引入“老师分身”模型，每个 ai 老师在单个阵容上训练至精通，再引入一个 ai 学生模仿学习所有的 ai 老师。

最终，「绝悟」掌握了所有英雄的全部技能，正所谓“少林有七十二艺，功夫既有不同，练习之法，亦必各异。学者苟能尽之，则无敌于世矣。”

「绝悟」手握强兵善用兵

自然，团队的长期目标，就是要让「绝悟」手握强兵，且每个英雄都能达到顶尖水平，因此技术上有了三项重点突破：

首先，团队构建了一个最佳神经网络模型，让模型适配 moba 类任务、表达能力强、还能对英雄操作精细建模。

模型综合了大量 ai 方法的优势，如：

在时序信息上引入长短时记忆网络（lstm）优化部分可观测问题；

在图像信息上选择卷积神经网络（cnn）编码空间特征；

用注意力（attention）方法强化目标选择；

用动作过滤（action mask）方法提升探索效率；

用分层动作设计加快训练速度；

用多头值估计（multi-head value）方法降低估计方差。

其次，团队研究出了拓宽英雄池，让「绝悟」掌握所有英雄技能的训练方法——cspl（curriculum self-play learning，课程自对弈学习）。

根据下图可以看出，使用 cspl 方法扩展英雄池有明显优势。

据悉，这是一种让 ai 从易到难的渐进式学习方法——第一步是挑选多组覆盖全部英雄池的阵容，在小模型下用强化学习训练；第二步是蒸馏，把第一步得到的多个模型的能力迁移到同一个大模型中；第三步是随机阵容的强化训练，在蒸馏后的大模型里，随机挑选阵容继续强化训练和微调。

最后，团队搭建了大规模训练平台腾讯开悟（aiarena.tencent.com），依托项目积累的算法经验、脱敏数据及腾讯云的算力资源，为训练所需的大规模运算保驾护航。

2020 年 8 月，开悟平台对 18 所高校开放，未来希望为更多科研人员提供技术与资源支持，深化课题研究。

早在 2018 年 12 月的 kpl 秋季总决赛中，「绝悟」就曾公开亮相对战人类玩家。

当时，团队研发了监督学习（sl）方法，针对大局观和微操策略同时建模，使得「绝悟」同时拥有优秀的长期规划和即时操作，达到了非职业玩家的顶尖水平。

但其实，团队对于监督学习的研发一直在进行——今年 11 月 14 日起开放的绝悟第 1 到 19 级，就有多个关卡由监督学习训练而成。

理论上，监督学习训练出的 ai 表现逊于强化学习的结果，但这一方向极具研究与应用价值，相关成果也入选了顶刊 tnnls 。

如今，「绝悟」前有强兵，后有军师，不折不扣的一代宗师终于练成了。

- the end -

原文链接：雷锋网责任编辑：随心