解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
前不久,《星际争霸2》虫王iA周航加入商汤科技,担任AI研究员。
堪称电竞职业玩家「转型最成功」的案例之一。
而商汤作为一家以计算机视觉技术著称的公司,这一步棋又意在何为?

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
近日,在世界人工智能大会的圆桌论坛《从电竞到AI》中,商汤道出了其目的:
入局电竞,发力决策型 AI。
这些年,有关「电竞AI」的那点事
先来盘一下「电竞 AI」这件事情。
许多现实生活中的 AI 应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。
针对商汤入局的星际争霸,是一种即时战略(RTS)游戏的研究,也就是解决这个大问题过程中的一个小目标。
换而言之,类似星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。
而DeepMind的AlphaStar,可以说是在 AI 挑战星际争霸过程中,发展较为成熟的一个。

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
去年其研究还登上了顶级期刊Nature—— AlphaStar已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。
AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
至于训练,则是通过监督学习和强化学习来完成的。
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化;而不断变化的权重,就是学习目标演化的依据。
电竞 AI 领域另一个比较火的游戏是Dota2,OpenAI 的Rerun和OpenAI Five,是这款游戏中的 AI 佼佼者。

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
比起星际争霸2需要操纵甚至上百个单位,Dota2这款5V5游戏,只需要操纵5个智能体,但是操作精准度和策略复杂度要高一些。
OpenAI Five 是 OpenAI 首先开发出来的电竞 AI,和人类顶级团队——世界冠军 OG 的较量中,以2:0的明显优势碾压。
而后,OpenAI 又开发一出 Rerun,胜率再次翻新,达到了98%。
这些 AI 的背后同样是一套神经网络。
根据 OpenAI 发布的研究来看,policy (π) 被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。
在训练策略的过程中,OpenAI Five没有用到人类游戏数据,而是通过自我博弈。
与 Dota2 类似的电竞 AI ,还有国内的手游《王者荣耀》——腾讯绝悟 AI。

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
绝悟的 1v1 版本首次露面,是在2018年的 KPL 秋季总决赛上,而后在去年8月份,在5v5比赛中击败了人类职业战队,实力不容小觑。
而有关绝悟的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。

 解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
文章图片
AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。


推荐阅读