人类一败涂地！OpenAI血虐Dota2半职业战队！马斯克仅评价了两个字

作者 |郭一璞栗子夏乙

出品 | 公众号 QbitAI

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载。

北京时间早上5点58分，人类半职业Dota高手队对战OpenAI Five第二局接近尾声，被称为“大老师”的dota plus大数据对人类战队宣判了死刑。

它说，AI胜率100%。

6点整，人类第二次打出GG（good game，投降），AI宣告胜利。

这是OpenAI Five首次在5v5战局中，对上职业选手。今天的人类代表队由职业和半职业选手组成，在旧金山和AI展开三局两胜的厮杀。

一方是“从未输给过人类职业选手”的OpenAI Five，另一边，人类战队中的现役职业选手MoonMeander也在Twitter上高调宣布“从未输给过bot，这次也不会”。

事实证明，这个Flag立得太高。

AI以碾压之势，连胜两局。加上正赛前，AI已经碾压了两局现场观众玩家，整个对战AI的过程中，人类阵营可谓一败涂地。

最后一局，改了规则。AI一方的英雄，由现场观众共同选出，最后得到一个奇葩阵容。人类玩家靠这种方式，勉强扳回一局。但这也无法改变AI大获全胜的事实。

总有人把OpenAI的胜利，归功于已经退出董事会的Elon Musk。对于今天的胜利，钢铁侠怎么说？我们最后揭晓，先说正事儿。

4局被碾压，1局挽尊

正式比赛之前先进行了两场OpenAI Five对观众的娱乐赛，毫无悬念，均以人类失败告终，AI拆塔如入无人之境。其中第二场比赛9:28分人类上路高地塔告破，不到14分钟，观众队就输给了AI。人类先折两阵。

不过，后面职业选手的比赛也没有强多少。

正赛第一局

由于只有18个英雄，正式的比赛虽然有BP，但大家只是象征性的BAN了一些18个英雄之外的英雄。夜魇的人类选了小牛、瘟疫法师、冰女、剃刀和影魔，天辉的AI选了巫妖、飞机、火枪、DP和莱恩。

一开始，merlini的剃刀越塔送了一血，AI在各路拿下5个人头后，人类终于拿下一个，此时AI胜率94%。一波团战后，人头变为AI 9:3，胜率给到了AI胜99%，象征性的给人类留下了1%的尊严。

之后，AI开始了疯狂的推塔进程，四一分带，巫妖一人推掉上路一塔，其余4人灭掉人类对手，推掉下路一塔。随后，野区爆发一波团战，AI前后夹击，将被包围在中间的三人统统灭掉，旁边的一人也残血逃命不及被补刀，此时已进行到13分钟，人头数22:4，AI经济领先5k。

1分钟后，下路2塔告破。随后，人类终于认真配合，四人包围抓了一个巫妖，然而就在此时，AI队其余4人推掉了上路高地塔，人类赶回家救塔，blitz的影魔完成本场人类唯一亮点操作，完成双杀。然而无济于事，AI已经开始酝酿最后一波团战了，他们冲上中路高地塔前，越过人类小牛的阻碍，越塔拿下2个人头后，淡定拆塔。

最终，人类gg，以8:30惨败。

这一场仿佛人类完全没有配合，仿佛被割韭菜一样推掉。惹得直播间弹幕惊叹：这哪是排名1000名左右的高手，简直像新手一样被虐。

正赛第二局

这次人类在天辉一方，选择了巫医、影魔、小牛、死亡先知（DP）和隐刺，夜魇AI选择的是巫妖、火枪、莱恩、冰女和飞机。

第二局的人类似乎稍微有出息了一点，拿下一血，人头属于影魔，甚至还推掉了一个塔。AI的胜率成功被坚强抵抗的人类压低了……1个百分点，降到了98%，甚至开始时，人类经济都领先了1k。

AI被人类拖到了20分钟才开始推中路高地塔。然而这点“优势”没有持续多久，AI如拆迁队一般，推完中路后迅速去推下路，紧接着赶去了上路，开局25分钟，上路塔被拆，人类本局终于没有机会了。

三局两胜下，也意味着这场比赛人类还是输给了AI。而且人类和AI之间的差距，实在是太大、太明显。

正赛第三局

既然AI已获两胜，第三场就变成了娱乐局，由人类观众来“刁难”OpenAI Five，为他们选出5个英雄。人类选手MoonMeander为了一雪前耻，号召大家选5个脆皮来恶心一下它们。

所以，人类观众们给AI选出了小鱼、斯温、斧王、隐刺和痛苦女王这样的阵容，而人类则拿到了绝对优势的死灵法、莱恩、飞机、DP和巫妖。

这套阵容胜率怎么样？

没开打之前，预测胜率为2.9%……

一开场，5个脆皮的劣势阵容果然很有用，至少在经济上人类狠狠地压过了AI。

△绿色为人类的经济

可怜的AI斧王辛苦赚钱养家，不但没有突破经济限制，甚至还从全场第三掉到了全场第四。

开始的十几分钟里，AI还在努力的拿人头，取得了比分上的暂时领先。不过很快，被人类选了5脆皮阵容的AI自知团战打不过，只好选择猥琐带线，悄悄偷塔。

比赛进行到14分钟，人类终于追评了比分，14:14平；2分钟后，人类在草丛堵死了一只小鱼，终于获得了优势比分16:15，AI胜率跌到了8%。

22分钟，人类27:16，AI终于被大老师判了死刑，胜率只有1%，而经济也被人类压了8k。

绝望的AI拼死一搏，无脑带线，以1人换1塔的精神，义无反顾冲上人类的塔下，被人类狠狠的包围，群殴一顿。

29分钟，人类终于开始推高地；5分钟后，人类推掉中路高地塔，AI还不放弃，悄咪咪搏命偷塔（未果）；2分钟后，人类终于推掉AI的基地，以绝对压制的阵容取得了唯一的一场胜利。

整个比赛过程中，不断有围观群众质疑着人类选手的段位。

这支被AI虐杀的人类队伍，按照OpenAI的描述是99.95％以上。如果看MMR（匹配分，约等于天梯积分），都在6500以上，天梯排名最低的也只有1000名出头。

他们是：

William “Blitz“ Lee：Dota2解说，前职业选手、教练。

Austin “Capitalist“ Walsh，简称Cap：Dota2解说，曾经与Gamer University、Vegetables Esports Club等战队打过半职业比赛。

Ioannis “Fogged“ Loucas：曾经是职业战队Steak Gaming、半职业战队Vegetables Esports Club选手。

Ben “Merlini“ Wu：前职业选手，退休解说。

David “MoonMeander“ Tan，加拿大战队compLexity Gaming的职业选手。MoonMeander是本次人类战队中的唯一一名现役职业选手，也是OpenAI Five对战的第一个职业选手。

AI一日200万场比赛训练

OpenAI一路赢得轻松，现场观众的呼声几乎全是送给AI的。

看直播的小伙伴里，则有人对AI全程摩擦人类的赢法表示失望。

“怀疑”OpenAI请了群演的，不止一人。

可被按在地上摩擦的人类，也很绝望啊。

来自人类战队的MoonMeanderated发推说，AI一天能打200万场比赛呢。

人肉训练的强度，真的没有那么大。

与此遥相呼应，中国网友的表达，就更直接一点。

大意可能是，AI学了180年，每天200万把，比人类厉害不意外，比人类菜就是真菜了。

另外，关于赛前OpenAI宣布把智能体的反应速度，降到与人类接近的200毫秒，这件事……

看了比赛的观众，似乎并不买账，强烈质疑官方宣传的反应速度有假。

Reddit也这样说。

对于同胞的战败，人类心有不甘。

也有人担心，DotA终究会是AI的天下。

好在第三局赢了，虽说有些“小人得志”。刷弹幕的小伙伴们已如愿，可以洗洗睡了。

AI挑战职业选手靠什么？

目前已知的情报是这样的：

OpenAI训练Dota选手的方式，是让AI从随机状态开始，依靠自我对局来优化。

这支AI队伍长这样：

简单来说，每个选手，也就是每个智能体（agent），都是一个包含1024个节点的单层LSTM（长短时记忆网络），能够通过V社（Valve）的Bot API观察当前游戏状态，控制英雄去移动、攻击、施放技能、使用道具。

智能体能够观察到的信息和人类差不多，包括自身、队友和敌人的状况，比如位置、血量、攻击力、护甲、携带物品、能力等等。

这些信息，对于智能体来说是一个包含20000数值的列表，而它判断之后发出的行动指令，是8个值的列表。

选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

去年训练1v1 AI的时候，OpenAI针对卡兵的操作专门设置了奖励，在5v5版本中取消了。不过，5v5模型还是借助其他奖励信号学会了卡兵。

AI选手们在训练中饭量惊人，承载它们需要256块P100 GPU和12.8万个CPU核心。

上面的5v5版本与1v1版本对比，有一个令人欣慰的结果：OpenAI Five需要的CPU和GPU计算力，与去年击败Dendi的1v1版相比，并没有翻到5倍。

OpenAI说，AI每天的训练量，都相当于人类打180年游戏。来自人类战队的MoonMeanderated说，AI们每天要打200万局Dota。

5个智能体训练出来，它们之间又是怎样配合的呢？总不能像我们人类开黑一样互相喊话吧？

答案是，他们之间没有那种人类可以理解的沟通渠道，而是由一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间，决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。

OpenAI操作也一样是通过bot API，能够移动位置、攻击、使用道具，根据获胜、血量和补刀情况得到奖励。

从诞生到对战职业选手，这只AI走过了一年半的成长之路。

从1v1版本算起的话，它最早诞生于2017年3月，去年8月在TI7上一鸣惊人。只训练了两周的AI，影魔中单1v1完败顶级职业选手Dendi。

质疑之声也不少，最核心的吐槽在于，1v1的难度根本不能和5v5相提并论，而且这个AI会用的英雄，也只有一个。

当然，AI进化得比人类选手快得多。

时隔不到一年，AI在今年6月掌握了5v5技能。6月26日，OpenAI Five出现了，它掌握了5个英雄，能在做了各种限制的5v5 Dota里，击败MMR 4000-6000分的强大路人队，但面对MMR 4000-5500分、有团队训练的队伍，就没能取胜。

过了一个月，这个AI掌握的英雄数量增加到了18个，游戏的限制也只剩下没有召唤单位和幻象、没有圣剑和瓶子、没有扫描、依然需要5只无敌信使。

另外，OpenAI还把AI的反应时间从原来的80毫秒拉长到了200毫秒，不在反射弧上占人类便宜。

7月24日，离直播还有不到两周，OpenAI Five和5位MMR在5000到6500的选手打了4场，2胜2负。

gdb说，他们的团队分析了比赛中的失误原因，在AI的训练中做了一些调整。比如说，去掉那些1v1时代遗留的脚本写下来的逻辑，除一除bug，增加一些随机选择。

然后就有了今天这场对决。

向AI圈的世界杯进发！

这场对战之后，OpenAI Five就迈进了下一个阶段：向着Dota圈的世界杯，顶级赛事TI8（The International）进发。

之前，GDB说想通过这次比赛，看看有没有希望在8月底之前达到TI（The International）大赛上顶级职业选手的水平。

现在看来，我们只能寄希望于顶尖人类战队，来与AI一战了。

沉默的钢铁侠

每次OpenAI取得进展，AI在Dota2战场斩获胜利，总有人将其归功于伊隆·马斯克。中外概莫能外。毕竟，马斯克是OpenAI的创始人之一。

不过今年2月，钢铁侠已经退出OpenAI董事会。

2015年，马斯克与YC董事长Sam Altman、天使投资人Peter Thiel等一起创立了OpenAI，对标DeepMind。然而众所周知，马斯克对于AI发展的态度，十足悲观，是地球上知名的“AI威胁论”持有者。

对于今天的胜利，Sam等公开表达了祝贺。

而马斯克看起来内心毫无波澜，甚至都没有想笑一下。话痨一般的他，没在Twitter上主动提一句这件事，只是闷头说特斯拉Model 3。

当然，有人问他支持谁，马斯克只是简单地回复了两个字：

“人类”