马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗( 二 )


而这,还是官方将AI战力调低过的…
或许你会说,前来挑战的都是路人才会如此 。
不不不 。
还真不是如此 。
绝悟在现场也同职业选手大战4个回合 。
这些选手ID分别为重庆 QGhappy.Hurt、成都 AG 超玩会 。无痕、武汉 eStarPro. 诺言、深圳 DYG. 小义以及辰鬼 。
最终,他们与绝悟比分3:1,仍然是AI胜 。
不过一位现场工作人员向量子位爆料:
并不是真的AI多厉害,而是人类选手缺乏配合上的磨合,直接上来打表演赛,倘若按专业电竞比赛集训磨合再与AI对战,胜负尚未可知 。
而关于绝悟唯一那次失败,量子位专门向其询问感受,对方表示:
这都正常…
口气云淡风轻 。
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
绝悟背后的骚技术
绝悟碾压人类的技术是什么?
根据腾讯官方说法,绝悟并没有所谓“开挂”,在游戏中的客观条件限制是一致的 。
“绝悟”区别于人的优点主要有两点:
首先,训练效率非常高,一天的训练强度高达人类 440 年(腱鞘炎警告);
其次,不受情绪、性格影响,配合障碍更低 。
用一句话概括就是,比你理性,不被情绪左右,没有那种世俗欲望,还比你勤奋 。
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
绝悟之所以要如此勤奋,也是被王者荣耀逼的——这游戏太难了 。
首先,作为是一个无法预料对方操作的不完全信息游戏,玩家需要不断探视野,敌我双方的实时位置、状态等信息不透明,AI也需要在这样的前提下做决策;
其次,王者荣耀对局复杂 。
100多个英雄,这其中的阵容组合高达10的15次方种,不同的组合对应的打法又不一样 。
另一方面,游戏中的角色状态、种种操作加上装备选择相当复杂 。
光是想想已经头大,还要在策略规划、目标选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择 。
我们也向现场技术人员做了请教:绝悟AI与谷歌ALPHAGO能力是否雷同?
对方表示:
绝悟算力水平远超ALPHAGO,因为围棋游戏背后的可能性远少于王者 。
后者除操作英雄,还有协同打团,BAN人及不同英雄配合需要考虑进去,所需算力不在一个量级 。
工作人员还透露了一个惊人的数字:
AI在一局里操作可能性大概有10的2万次方种 。
什么概念?
整个宇宙原子总数也只是10的80次方!
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
如此复杂情景对绝悟背后的AI技术要求极高 。
最初版本的“绝悟”通过监督学习方法来训练,以海量有标记的训练数据为基础,推导出行为预测函数,实现拟人化 。也因此,标注数据质量尤为重要 。
随着研发团队在深度强化学习、多智能体决策课题上的研究不断深入,“绝悟”不再需要模仿人类数据,转而通过与自己对战,进一步提升微操水平和大局观,达到了王者荣耀职业电竞水平 。
强化学习通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑 。
根据团队技术负责人杨光介绍:
AI会通过奖励(reward)反馈,知道一个行为做的好还是不好 。在获得大量反馈后,AI会渐渐摸索出能够取得胜利的行为,表现出‘学会’玩游戏的效果 。
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
这个方法的优点在于,不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知,在行为多样性和完成任务的能力方面有了质的提升 。
比如在训练后期,AI 甚至自己探索出了全新策略,“比如‘绝悟’经常多人抱团吃线,从而达到经济的最大化” 。
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
上述技术相关论文早在2018年已经公布 。
今年5月,绝悟也已在线上与很多玩家开启对战,各家媒体跟进宣传 。
马化腾|马化腾的2万不好赚!绝悟AI稳如猛虎 人类王者被虐成狗
文章图片
论及绝悟又有什么新变化?


推荐阅读