通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏( 二 ) 智东西（公众号：zhidxcom）编译|子佩

文章插图
MuZero通过模拟下棋走向训练神经网络。
而每一步棋对于整体棋局的贡献都会被累加，成为本次棋局最后的奖励。
文章插图
策略函数P得到每一步预测下法，价值函数V得到每一步的奖励。
出了减少建模工作量外，这种方法的另一个主要优点就是可以不断复盘，而不需要得到外界的新数据。这样的优势也很明显，在Atari的测试中，名为MuZero Reanalyze的变体可以利用90％的时间使用学习过的模型进行重新规划，找到更优策略。
二、MuZero强在哪？追平前辈，拓宽Atari游戏战场MuZero模型分别自学了围棋、国际象棋、日本将棋以及Atari游戏，前三者用来评估模型在规划问题上的表现， Atari则用来评估模型面对视觉游戏时的表现。
文章插图
MuZero分别在国际象棋、日本将棋、围棋和Atari游戏训练中的评估结果。横坐标表示训练步骤数量，纵坐标表示 Elo评分。黄色线代表AlphaZero（在Atari游戏中代表人类表现），蓝色线代表MuZero 。
在围棋、国际象棋和日本将棋中， MuZero不仅在多训练步骤的情况下达到甚至超过了“前辈”AlphaZero的水平，在Atari游戏中， MuZero也表现突出。
文章插图
MuZero在Atari游戏中的性能。所有得分均根据人类测试的性能进行了归一化，最佳结果以粗体显示。
为了进一步评估MuZero模型的精确规划能力， DeepMind的研究人员还进行了围棋中经典的高精度规划挑战，即指下一步就判断胜负。
为了证实更多的训练时间能使MuZero模型更强大， DeepMind进行了如下面左图实验，当每一步的判断时间从0.1秒延长到50秒，评价玩家技能的Elo指标能增加1000 ，相当于业余棋手和最强职业棋手之间的区别。
而在右图的Atari游戏Ms Pac-Man（吃豆小姐）的测试中，也能很明显地看出训练时长越长时，模型表现越好。
文章插图
左图：随着步骤判断时间增加，围棋Elo指标上涨；右图：训练时长越长，模型表现越好
结语：出身于游戏，期待更多应用基于环境要素建模的MuZero ，用在多个游戏上的“超人”表现证明了卓越的规划能力，也象征着DeepMind又一在强化学习和通用算法方面的重大进步。
它的前辈AlphaZero也已投身于化学、量子物理学等领域，切身实地地为人类科学家们解决一系列复杂问题。在未来， MuZero是否可以继承“家业” ，应对机器人、工业制造、未知“游戏规则”的现实问题所带来的挑战，我们拭目以待。
【通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏】来源：DeepMind
文章插图

通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏( 二 )

推荐阅读

「睡服百万大菌」除了宅，好好睡觉也是为国做贡献 ‖ 良好睡眠，健康中国

每天食量巨大咋办

「汉口」中国最“奇怪”的火车站，明明地名已经不存在，却仍执

『马洛卡』今日赛事解析：西甲联赛马洛卡主场能否顺利拿下对手？

怎样让一台电脑，配置2个显示器，具体应该咋去设置

「一句神回复」难得看他这么用功了，男友最近老去舞蹈室练舞,

灵动的鱼|屠杀80万汉人，36岁遭报应，全身溃烂而死，他是多尔衮亲兄弟

面粉|“这兄弟钓鱼技术真厉害，但是好像一不小心掉到了一个危险动物”哈哈哈！

径山茶盖碗如何冲泡,径山茶冲泡方式茶艺先容

『环球科学猫』1000多张合成1张，NASA带你看18亿像素的火星景观，8天时间拍摄

火影未解之谜木叶丸他爹木叶丸的爸爸是谁

#Innovation#三星电子，第三款折叠屏生产倒计时，下月开始生产部件

长相一般，但是很会化妆的女生，回家卸妆后，心里会有落差吗

纵相新闻|带血的翡翠与佛像的尘埃，置之死地而后生的缅甸脱贫梦

穿搭|硬糖少女花仙子造型曝光，怎么感觉还没有拍摄花絮时真实好看？

上海市知识产权局网站|法国驻华大使馆知识产权参赞魏玉立（Julie Herve）访问上海市知识产权局

cue你一下什么意思啊 cue是什么意思

涉案冰毒84公斤！晋城中院一审宣判5人死刑

「曼联」曼联开出5000万英镑的报价，以击败切尔西签下桑乔的搭档

有哪些找合租室友的好方法