
近日,2021 世界人工智能大会落幕。在现场,不少王者玩家们见到了他们的老朋友 ———— 王者绝悟。它就像一个江湖隐士一样,每隔一段时间会突然出现在人群中,风风火火地大秀一番操作,然后又回到 " 山间小屋 ",深藏功与名。
这次,DeepTech 采访到王者绝悟团队,揭开这个王者荣耀与腾讯 AI Lab 共同研发的策略协作型 AI 的 " 神秘面纱 "。
" 天选之子 "
2016 年,对于人工智能的大众化普及来说,是一个很特殊的年份。
那一年, DeepMind 公司的 "AlphaGo" 大战韩国围棋国手李世石,引发了人们关于人类与机器谁更聪明的讨论热潮;那一年,HBO 名声大噪的人工智能系列影视作品《西部世界》开播,人们又开始担心人工智能是不是要叛变了。虽然这一想法着实有些遥远,但是看得出来,国外研究者们的 "AI 基因 " 已经非常躁动了。

而把目光转向国内,那一年,腾讯也开始了人工智能的投入 —— "AI+ 游戏 ";当时腾讯的重点,依然是围棋 AI —— " 绝艺 "。
不过,像围棋这样的游戏,大家一眼就能看到全局,是完全信息游戏。对于 AI 的训练来说,需要一点 " 更刺激 " 东西。毕竟,张无忌在出生的岛上,学到的可能只是劈柴生火,只有真正走进了江湖,他才能学到盖世武功,才能一步步了解到漂亮女人有多 " 危险 "。
AI 同理,在单智能体测试环境里,其测试结果和应用范围也会受到局限。真正成熟的人工智能技术,必须能够应对现实中一样复杂多变的环境,以及具备能同时处理多件任务的 " 大脑 "。
国外,DeepMind、OPEN AI 相继开展多智能体的研究。而在国内,王者绝悟诞生了。说得更深刻一些,王者绝悟的出现,其实承载了一份人们对人工智能技术跨越式突破的期待。
因为,腾讯的 "AI + 游戏 " 的人工智能研究路线,其实与海外的人工智能研究趋势是相当吻合的 —— 在下一个复杂策略游戏中,寻找 AI 里程碑。而王者荣耀具备的不完全信息、动作空间复杂、一局里高达 10 的 20000 次方种操作可能性,注定了其是测试人工智能技术的一块绝佳良田。

但是,这一点即是好处,也是坏处。
好的地方在于成果,王者绝悟这个多智能体技术能够在王者荣耀里验证成功,那么其也就能够更好地适应现实中的场景,发挥更大的应用价值。
而坏的地方在于过程,上文提到的信息获取、动作空间等问题,都是摆在王者绝悟团队面前的 " 技术拦路虎 "。神功不是一日练成的,这就意味着王者绝悟并非天生 " 高手 "。
" 腹黑型 "AI 的长成
回看王者绝悟的成长,有点像是一个初出茅庐的毛头小子,一步步成为狡黠腹黑的江湖老炮儿的过程。
2018 年 12 月,王者绝悟在 KPL 总决赛登场。这个时期的王者绝悟,是通过监督学习的方法,模拟学习了 KPL 职业选手的操作。
所谓的监督学习,用人类的话来理解,相当于 " 概念理解 "。有些人将其形容为跟着师傅学功夫,其实也挺准确。如果遇到了好师傅,那么他可能就能得到好的成绩;但是如果遇到了不好的师傅,那可能就会模仿到一些不好的习惯。总之,监督学习的对象,决定了 AI 的天花板在哪儿。
因此,在那个阶段,王者绝悟的水平,只能算 " 顶尖业余水平 "。
而到了 2019 年,随着在深度强化学习上的不断深入,王者绝悟则不再需要模仿人类数据,而是自己和自己对战,进一步提升了微观操作和大局观。这个时期的王者绝悟已经非常成熟了,知道如何总结错误、提升自己对知识的掌握和认知。技术的进步,让王者绝悟的反应能力和计算能力得到了质的提升。
在 2019 年世界冠军杯半决赛的特设环节中,王者绝悟再次登场。只是这一次,对面坐着的,是来自王者荣耀的职业战队选手。在这场全国瞩目的赛事上,王者绝悟大秀一番操作,印证了自己:击败了王者荣耀的职业战队,能力已经精进到王者荣耀电竞职业水平。

到了 2020 年,王者绝悟通过自我博弈,已经从单个或者固定英雄组合,高效地扩充到更多英雄组合的学习,并且正式向王者荣耀的玩家开放。那个曾经的 " 毛头小子 " 已经长大了,它召开了一场英雄大会,邀请各位一同华山论剑,试试招数的真假。
一方面,这增加游戏玩家们的体验乐趣;另一方面,王者绝悟的出现,其实也在潜移默化地刷新大众对于人工智能的基本认知 —— 它不在是你手机里的语音助手、或者是餐馆里按照路径规划送餐的机器人,而是一个可能比你想象中更聪明、更难缠的 " 高手 "。
在这一次公开的用户测试中,王者绝悟体现了不输于甚至超越顶级人类玩家的复杂场景决策能力。腾讯互动娱乐天美 L1 工作室总经理、王者荣耀执行制作人黄蓝枭在一次公开演讲中提到:在 2020 年 11 月 17 日 - 30 日的 " 挑战王者绝悟 " 玩法中,总对局次数达到了 7276 万;最高难度的挑战里,王者绝悟胜率达到 96.2%。

而到如今,根据王者绝悟团队的形容,它不仅达到了全英雄职业电竞水平,甚至能够在对局前的 BP 环节就开始计算胜率;对局中也能不断优化策略,寻找应对占据的最优解。简单理解,就是现在的王者绝悟不仅掌握了所有英雄的使用方法,甚至聪明到随时随地地针对你,妥妥的一个腹黑型选手。
但是,击败人类并不是王者绝悟的使命。如上文所说,王者绝悟的诞生,是承载着人们对于人工智能技术突破的一份期待的。" 高手 " 出山,不是为了在人群中寻找存在感的。王者绝悟的价值,也许还需要往游戏之外来看。
寻找未知的 " 秘籍 "
在 2021 世界人工智能大会上,腾讯公司董事会主席、首席执行官马化腾曾提到:"AI 在为我们的生活带来越来越多的便利,但我们对 AI 的未知仍然大于已知。我们追求科技向善,就要推动 AI 向善,让 AI 技术实现可知、可控、可用、可靠。"

这让笔者想到了王者绝悟团队在尝试将产品应用于游戏平衡性调整过程中的时候,发生过的一个小故事。
当时,团队基于王者绝悟的测试数据调整了某个英雄的参数。但早期投放时,玩家对该英雄调整的反馈却恰恰相反。大家都以为是不是王者绝悟的技术出现了 "BUG"。结果,随着游戏玩家对该英雄的熟悉和尝试,数据竟然很快提升到与王者绝悟的测试评价一致!
可见,其实王者绝悟存在的最大价值,就是 " 基于已知,验证未知 ",这个也许是在王者荣耀里游戏的未知,也可能是在整个人工智能发展过程中的未知。
毕竟,虽然多智能体系统自 20 世纪 70 年代出现以来迅速发展,已经成为进行复杂系统分析与模拟的思想方法与工具。但是,并没有人知道,其现在需要突破的技术边界到底在哪里。你说它有问题,但是它已经大规模应用了;但是你说它没问题,它的研究趋势上也没有出现一个像当初 " 神经网络 " 一样推动整个智能感知系统飞速发展的技术窗口。
因此,王者绝悟存在的重要性就显得尤为突出 —— 通过一天堪比人类 440 年的测试效率,在王者荣耀这块复杂的试验田反复试验,不断验证着人工智能技术在智慧上的边界,进而寻找到真正的能够通往通用人工智能技术终点上的那个 " 未知 " 的可能性。
而且,王者绝悟还不是一个 " 人 " 在做这件事儿。
如今,王者荣耀和腾讯 AI Lab 联合打造的 " 开悟 " 平台,希望把腾讯在算法、脱敏数据、算力方面的优势开放给更多的学术研究人员和算法开发者,一起推动人工智能领域的发展;马化腾在人工智能大会上也强调," 希望激发青年人对于通用 AI 的研究兴趣 "。

就好像王者绝悟正在写一本武林秘籍。没有人知道里面有什么招式,甚至连王者绝悟这个高手自己也不知道。所以,它要不断试验、不断测试来验证每一招、每一式的力量。时不时,他还会跑出来和人们切磋一下,然后又跑回山中继续它的研究,期待有一天这本秘籍能改变整个江湖。
结语
AlphaGO 所属的 DeepMind 有一句标语:What if solving one problem could unlock solutions to thousand more ? 用中文的理解,即 " 我们解决一个问题的方法,说不定能够帮助我们解决更多问题。"
张无忌是虚构的,但是武侠精神是真实的。在许多人眼里,王者绝悟也许现在仅仅只是一个游戏内的策略协作型 AI,但是其背后的多智能体技术,是切切实实通往通用人工智能重点的路径之一。
也许有一天,当王者绝悟完成了那本秘籍,也就找到了那个解决上千个问题的 "solution"。