微软亚洲研究院■它的十段功力是如何修炼的,微软麻将AI超越99%人类玩家

【微软亚洲研究院■它的十段功力是如何修炼的,微软麻将AI超越99%人类玩家】日前 , 微软亚洲研究院在arXiv平台上正式发表了关于麻将AI系统Suphx的论文 , 公布了Suphx背后的包括决策流程、模型架构、训练算法等核心技术细节 。 去年8月 , 微软亚洲研究院在世界人工智能大会上正式宣布由其研发的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的AI系统 , 其实力超越该平台公开房间顶级人类选手的平均水平 。
作为喜闻乐见的大众娱乐项目 , 麻将仅在亚洲地区就拥有上亿玩家 。 极高的普及度使得很多人都认为麻将是一项十分容易的棋牌类游戏 。 但麻将虽然入门容易 , 要真正打好麻将、精通麻将却十分困难 。 以国际知名专业麻将平台天凤(tenhou.net)为例 , 平台上超过35万的活跃玩家中 , 只有不到1%的玩家达到了专业7段及以上的高手水平 。
微软亚洲研究院■它的十段功力是如何修炼的,微软麻将AI超越99%人类玩家
文章图片
图1:天凤玩家段位分布以及Suphx排名:Suphx成绩超过了99.99%的天凤玩家麻将AI到底有哪些难点?Suphx这一在游戏AI领域具有跨越性的突破具体是如何实现的?近日 , 微软亚洲研究院Suphx研发团队在arXiv平台上正式发表论文 , 公布了Suphx背后的核心技术 。 麻将AI面临的挑战麻将AI系统Suphx主要基于深度强化学习技术 。 尽管深度强化学习在一系列游戏AI中取得了巨大的成功 , 但想要将其直接应用在麻将AI上殊为不易 , 面临着若干挑战 。 挑战一:麻将的计分规则通常都非常复杂 , 在如天凤平台等竞技麻将中 , 计分规则更加复杂 。 首先 , 一轮麻将游戏通常有8局甚至更多 , 每一局结束后四位玩家都会有这一局的得分(可能为正 , 可能为负) 。 当一整轮游戏都结束后 , 四位玩家按照所有局的累计得分排名 , 计算这一轮游戏的点数奖励 。 在天凤平台上 , 排在一二名的玩家会得到一定数目的点数 , 排在第三位的玩家点数不变 , 排在第四位的玩家会被扣去一定数目的点数 。 因此玩家的点数和段位都可能会起起落落 , 当点数增加到一定程度时段位上升 , 而点数扣到0时则会被降段 。 因此 , 为了提高段位 , 玩家需要尽量多的排在第一位或者第二位 , 尽量避免被排在第四位 。 有趣的是 , 由于一轮游戏的最终点数是由多局的累计得分决定 , 所以高手可能会策略性地输掉一些局 , 也就是说 , 某一局的输赢并不能直接代表玩家打的好不好 , 所以不能直接使用每局的得分来作为强化学习的奖励反馈信号 。 微软亚洲研究院的研究员们找到了一种其他的方法 , 会在后文中解释 。 其次 , 天凤平台上每一局游戏的计分规则都需要根据赢家手里的牌型来累计计算得分 , 牌型有非常多的可能 , 例如清一色、混一色、门清等等 , 不同牌型的得分会相差很大 。 这样的计分规则比象棋、围棋等游戏要复杂得多 。 麻将高手需要谨慎选择牌型 , 以在胡牌的概率和胡牌的得分上进行平衡 , 从而取得第一、二位或者摆脱第四位 。 挑战二:从博弈论的角度来看 , 麻将是多人非完美信息博弈 。 麻将一共有136张牌 , 每一位玩家只能看到很少的牌 , 包括自己的13张手牌和所有人打出来的牌 , 更多的牌是看不到 , 包括另外三位玩家的手牌以及墙牌 。 面对如此多的隐藏未知信息 , 麻将玩家很难仅根据自己的手牌做出一个很好的决策 。 (各种游戏隐藏信息及复杂度的分析 , 可参考文章“哪类游戏AI难度更高?用数学方法来分析一下”)
微软亚洲研究院■它的十段功力是如何修炼的,微软麻将AI超越99%人类玩家
文章图片
挑战三:麻将除了计分规则复杂之外 , 打法也比较复杂 , 需要考虑多种决策类型 , 例如 , 除了正常的摸牌、打牌之外 , 还要经常决定是否吃牌、碰牌、杠牌、立直以及是否胡牌 。 任意一位玩家的吃碰杠以及胡牌都会改变摸牌的顺序 , 因此研究员们很难为麻将构建一棵规则的博弈树(gametree) 。 即使去构建一棵博弈树 , 那么这棵博弈树也会非常庞大 , 并且有不计其数的分支 , 导致以前一些很好的方法 , 如蒙特卡洛树搜索(MCTS)、蒙特卡洛反事实遗憾最小化(MCCFR)算法等都无法直接被应用 。


推荐阅读