解释|商汤组了“最强大脑”局，正儿八经解释为啥搞起电竞AI 最强大脑|ai|周航

金磊发自凹非寺
量子位报道 | 公众号 QbitAI
前不久，《星际争霸2》虫王iA周航加入商汤科技，担任AI研究员。
堪称电竞职业玩家「转型最成功」的案例之一。
而商汤作为一家以计算机视觉技术著称的公司，这一步棋又意在何为？

文章图片

近日，在世界人工智能大会的圆桌论坛《从电竞到AI》中，商汤道出了其目的：
入局电竞，发力决策型 AI。
这些年，有关「电竞AI」的那点事
先来盘一下「电竞 AI」这件事情。
许多现实生活中的 AI 应用，都涉及到多个智能体在复杂环境中的相互竞争和协调合作。
针对商汤入局的星际争霸，是一种即时战略（RTS）游戏的研究，也就是解决这个大问题过程中的一个小目标。
换而言之，类似星际争霸的挑战，实际上就是一种多智能体强化学习算法的挑战。
而DeepMind的AlphaStar，可以说是在 AI 挑战星际争霸过程中，发展较为成熟的一个。

文章图片

去年其研究还登上了顶级期刊Nature—— AlphaStar已经超越了99.8%的人类玩家，在神族、人族和虫族三个种族上都达到了宗师（Grandmaster）级别。
AlphaStar学会打星际，还是靠深度神经网络，这个网络从原始游戏界面接收数据 (输入) ，然后输出一系列指令，组成游戏中的某一个动作。
至于训练，则是通过监督学习和强化学习来完成的。
而且，智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重，也是随着强化学习过程不断变化；而不断变化的权重，就是学习目标演化的依据。
电竞 AI 领域另一个比较火的游戏是Dota2，OpenAI 的Rerun和OpenAI Five，是这款游戏中的 AI 佼佼者。

文章图片

比起星际争霸2需要操纵甚至上百个单位，Dota2这款5V5游戏，只需要操纵5个智能体，但是操作精准度和策略复杂度要高一些。
OpenAI Five 是 OpenAI 首先开发出来的电竞 AI，和人类顶级团队——世界冠军 OG 的较量中，以2:0的明显优势碾压。
而后，OpenAI 又开发一出 Rerun，胜率再次翻新，达到了98%。
这些 AI 的背后同样是一套神经网络。
根据 OpenAI 发布的研究来看，policy (π) 被定义为从观察数据到动作概率分布的函数，这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

文章图片

选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。
在训练策略的过程中，OpenAI Five没有用到人类游戏数据，而是通过自我博弈。
与 Dota2 类似的电竞 AI ，还有国内的手游《王者荣耀》——腾讯绝悟 AI。