[王者荣耀]王者荣耀:绝悟AI的原理浅析( 二 )
2)第二部分就是核心部分了 , (这部分不想看可以跳过去) 。这部分包括LSTM(长短时记忆网络)和Attention(注意力)机制 , 将之前的一大串输出输入到这个LSTM网络当中 , 经过FC变换之后 , 得到初步的输出 。Attention部分用了RL探索的剪枝(y1s1 , 我不是搞强化学习的 , 这个地方我也不是很懂) , 反正作用就是 , 我面前很多东西 , 比如野怪 , 小兵 , 它 , 敌方英雄 , 我该干谁呢 , 就由这个决定就完事了 。具体的细节有能力有兴趣的坛友可以去看论文 。
3)第三部分模型的输出部分 , 当然这个部分呢 , 还是需要再上一步做些调整和变化的 。细心的朋友已经发现了 , 上面这几个输出不是独立的 , 具体什么意思呢 。
文章图片
文章图片
这里列举了最简单的移动按钮为例(就是移动轮盘) 。首先是button按钮 , 其次的四个是我该怎么拖动这个按钮(就是我拖动技能 , 方向和距离) , 这个大家都很熟悉 , 一定能秒懂我什么意思 。最后一个是Target部分 , 就是目标 , 就是我该瞄准谁呢?小兵、塔、敌方英雄等 。技能按钮以此类推 。
(论文中提到 , 虽然这些输出有依赖 , 但是通过一些手段 , 可以使其独立 , 就是这几个没什么关系 。这里面就是这篇文章比较有新意的地方 , 叫Dual-clip PPO , 反正这些东西不影响我们对AI的理解)
以上就是系统框架内容 , 通过不断的训练优化这个模型(这里涉及到网络的训练问题 , 很复杂 , 还要看工程师的“炼丹”能力如何) , AI英雄会越来强 , 没错就是越来越强 , 不要问为什么(深度学习的可解释性是个很大的难题) , 事实摆在眼前 。上面内容是不是有点复杂 , 确实我也这么觉得 , 如果你都看懂了 , 说明你很有“炼丹“的天赋(手动狗头) 。
下面我们说点轻松的:为了测试AI的性能 , AI团队还邀请了几位职业选手进行1v1对抗 , 以下是论文截图 , 结果表明 , AI可以达到职业水准(没错 , 就是这么牛x) 。
文章图片
文章图片
这里还有一个细节 , AI的反应时间是133ms , 论文中说133ms是顶级业余选手的反应时间 , 所以被绝悟揍是很正常的 。下面是职业怎么挨打的数据 , 大家看看就好 。
文章图片
文章图片
然后AI又去找路人玩家PK , 数据如下
文章图片
文章图片
可以发现 , 大部分都是绝悟赢 , 输的几场 , 用官方的解释来说呢 , 可能是因为HanXin(二一横扫) , SunWukong(吉吉国王) , HouYi(真正的射手)比较依赖暴击 , 由于暴击是一个不确定因素 , 所以对于AI来说有些影响 。
再来个泥潭之前的日常话题ELO:
文章图片
文章图片
这是论文里 , 训练狄仁杰的效果图 , 我们看见官方内部给出的玩家水平评价指标就是ELO 。模型训练大约7小时 , 已经可以干掉游戏自带的AI了 , 12小时达到星耀水平 , 30小时达到王者水平 , 60小时达到荣耀王者水平 , 70小时已经接近职业水平(为了防止杠精 , 怎么职业和荣耀差不多 , 我不做解释 , 这是论文给出的数据) 。
推荐阅读
- 「王者荣耀」王者荣耀:26号优选活动福利,皮肤10选1,冠军飞将特工魅影
- 【杨戬】王者荣耀:浪子画在名人赛中又秀本命杨戬,最后还是用偷家取胜
- ■「王者抢先看」2020年 KPL春季赛季后赛,首日(5.28)预告
- 曹操:王者荣耀:s17剩半个月,新赛季皮原画曝光!曹操kpl必买!
- [王者荣耀]王者荣耀:皮肤碎片商店上新品,这几款史诗品质皮肤先兑为敬
- 『王者荣耀』王者荣耀:人皇SKY直播回应喷子,传播竞技精神正能量
- #王者荣耀#王者荣耀:KPL最后一周的王牌选手最佳阵容出炉,一诺多次入选
- 王者荣耀@王者荣耀:米莱狄小型攻略,学会掌控机器人,让刺客无法近身
- 『王者荣耀』王者荣耀:很罕见的8张截图,皮肤碎片2033个,两万多对局仅青铜
- 【阿轲】王者荣耀:是皮肤的漏洞还是福利?阿轲大招消失的残影