解释|商汤组了“最强大脑”局,正儿八经解释为啥搞起电竞AI
量子位 报道 | 公众号 QbitAI
前不久,《星际争霸2》虫王iA周航加入商汤科技,担任AI研究员。
堪称电竞职业玩家「转型最成功」的案例之一。
而商汤作为一家以计算机视觉技术著称的公司,这一步棋又意在何为?
文章图片
入局电竞,发力决策型 AI。
这些年,有关「电竞AI」的那点事
先来盘一下「电竞 AI」这件事情。
许多现实生活中的 AI 应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。
针对商汤入局的星际争霸,是一种即时战略(RTS)游戏的研究,也就是解决这个大问题过程中的一个小目标。
换而言之,类似星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。
而DeepMind的AlphaStar,可以说是在 AI 挑战星际争霸过程中,发展较为成熟的一个。
文章图片
AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。
至于训练,则是通过监督学习和强化学习来完成的。
而且,智能体的学习目标会适应环境不断改变。
神经网络给每一个智能体的权重,也是随着强化学习过程不断变化;而不断变化的权重,就是学习目标演化的依据。
电竞 AI 领域另一个比较火的游戏是Dota2,OpenAI 的Rerun和OpenAI Five,是这款游戏中的 AI 佼佼者。
文章图片
OpenAI Five 是 OpenAI 首先开发出来的电竞 AI,和人类顶级团队——世界冠军 OG 的较量中,以2:0的明显优势碾压。
而后,OpenAI 又开发一出 Rerun,胜率再次翻新,达到了98%。
这些 AI 的背后同样是一套神经网络。
根据 OpenAI 发布的研究来看,policy (π) 被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。
文章图片
在训练策略的过程中,OpenAI Five没有用到人类游戏数据,而是通过自我博弈。
与 Dota2 类似的电竞 AI ,还有国内的手游《王者荣耀》——腾讯绝悟 AI。
文章图片
而有关绝悟的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。
文章图片
推荐阅读
- 学会|背景图·不知从什么时候,学会了不解释
- 微软xCloud缘何无法登陆iOS:苹果给出了解释
- 评奖|赵丽颖为何难成影后,圈内公认的评奖规则,解释了重要原因
- 孤独的幸福树|心理学:鸡尾酒会效应,为你解释那些败给了“外人”的婚姻
- 冬菇解释娱乐|赵薇封面大片曝光,红唇精致翩若惊鸿,笑容明媚淡然出尘
- 黄克功|毛泽东解释“黄克功案”:杀功臣也是无奈
- 郭美美|郭美美发文力挺韩红,称自己什么都不想解释,希望不要扯到她!
- 最爱收藏|闺蜜和男友:确实大概率会相爱!心理学解释来了
- Array|缅甸17岁少年服刑时被打死!少管所给出的解释让人难以接受
- 摩丽星座|这四个星座不想听人解释,认为解释都是开脱,为自己推卸责任