通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏


通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
智东西(公众号:zhidxcom)
编译 | 子佩
编辑 | Panken
智东西12月24日消息 , 继AlphaGo扬名海外后 , DeepMind再推新模型MuZero , 该模型可以在不知道游戏规则的情况下 , 自学围棋、国际象棋、日本将棋和Atari游戏并制定最佳获胜策略 , 论文今日发表至《Nature》 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
论文链接:
自2016年 , 令柯洁流泪、让李世石沉默的AlphaGo横空出世 , 打遍棋坛无人能敌后 , AI棋手的名号就此一炮打响 , 而其背后的发明家DeepMind却没有因此止步 , 四年之内迭代了四代AI棋手 , 次次都有新突破 。
始祖AlphaGo基于人类棋手的训练数据和游戏规则 , 采用了神经网络和树状搜索方法 , 成为了第一个精通围棋的AI棋手 。
二代AlphaGo Zero于2017年在《Nature》发表 , 与上代相比 , 不需要人类棋手比赛数据作为训练集 , 而是通过自对抗的方式自己训练出最佳模型 。
三代AlphaZero在2018年诞生 , 将适应领域拓宽至国际象棋和日本将棋 , 而不是仅限于围棋 。
第四代、也就是今天新公布MuZero最大的突破就在于可以在不知道游戏规则的情况下自学规则 , 不仅在更灵活、更多变化的Atari游戏上代表了AI的最强水平 , 同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
一、从未知中学习:三要素搭建动态模型与机器擅长重复性的计算和牢固的记忆不同 , 人类最大的优势就是预测能力 , 也就是通过环境、经验等相关信息 , 推测可能会发生的事情 。
比如 , 当我们看到乌云密布 , 我们会推测今天可能有雨 , 然后再重新考虑是否要出门 。 即使对于仅有几岁的孩子而言 , 学会这种预测方式 , 然后推广到生活的方方面面也是很容易 , 但这对于机器来说并不简单 。
对此 , DeepMind研究人员提出了两种方案:前向搜索和基于模型的规划算法 。
前向搜索在二代AlphaZero中就已经应用过了 , 它借助对游戏规则或模拟复盘的深刻理解 , 制定如跳棋、国际象棋和扑克等经典游戏的最佳策略 。 但这些的基础是已知游戏规则及对可能出现的状况大量模拟 , 并不适用情况相对混乱的Atari游戏 , 或者未知游戏规则的情况 。
基于模型的规划则是通过学习环境动态进行精准建模 , 再给予模型给出最佳策略 。 但对于环境建模是很复杂的 , 也不适用于Atari等视觉动画极多的游戏 。 目前来看 , 能够在Atari游戏中获得最好结果的模型(如DQN、R2D2和Agent57) , 都是无模型系统 , 也就是不使用学习过的模型 , 而是基于预测来采取下一步行动 。
也是由于以上两个方法中的优劣 , MuZero没有对环境中所有的要素进行建模 , 而是仅针对三个重要的要素:
1、价值:当前处境的好坏情况;
2、策略:目前能采取的最佳行动;
3、奖励:最后一个动作完成后情况的好坏 。
那接下来 , 我们就来看看MuZero是如何通过这三个要素进行建模 。
MuZero从当前位置开始(动画顶部) , 使用表示功能H将目前状况映射到神经网络中的嵌入层(S0) , 并使用动态函数(G)和预测函数(F)来预测下一步应该采取的动作序列(A) 。
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏文章插图
基于蒙特卡洛树状搜索和MuZero神经网络进行规划
那如何知道这一步行动好不好呢?
MuZero会与环境进行互动 , 也是模拟对手下一步的走向 。


推荐阅读