麻将|麻将AI算法能用于投资预测?微软揭秘研发细节

_原题为 麻将AI算法能用于投资预测?微软揭秘研发细节
每经采访人员:张韵 每经编辑:陈俊杰
去年 , 时任微软全球执行副总裁沈向洋在2019世界人工智能大会上宣布 , 微软亚洲研究院开发出了世界上最强的“麻将AI”——Suphx , 并在国际知名专业麻将平台“天凤”上荣升十段 , 其实力超越该平台公开房间顶级人类选手的平均水平 。
游戏是人工智能算法研究的重要试验田 , 其环境的复杂性和信息的不确定性是机器学习的最佳训练场 。
那么麻将AI到底有哪些难点?Suphx 在游戏AI领域的跨越性突破具体是如何实现的?麻将AI落地的最终目的又是什么?在2020世界人工智能大会上 , 《每日经济新闻》采访人员尝试从微软亚洲研究院方面找到答案 。
用麻将AI破译非完美信息博弈
微软亚洲研究院副院长潘天佑向采访人员表示:“大家都知道下围棋的AlphaGo , 牌类游戏相对棋类来说更为困难 , 而牌类游戏中最复杂的就是中国人的麻将 , 麻将中蕴含太多不确定因素 , 但我们的研究员就接受了这样的挑战 。 ”
微软亚洲研究院副院长刘铁岩和他的团队是麻将AI算法的开创者 。
“想要训练AI , 把麻将真正打好是一件很困难的事情 。 ”刘铁岩表示 , 象棋和围棋虽然看起来很难 , 但其实都是完美信息博弈 , 也就是说对手的所有信息我们都一览无余 。 这种情况下 , AI可以通过它强大的计算力来枚举各种可能性 , 从而找到制胜的策略 。
而麻将则完全不同 , 充满了随机性和不确定性 。 首先玩家只知道自己手里的13张牌和之前打出去的牌 , 却无法知道别人的手牌和没有翻出来的底牌 。 牌局中存在着大量不可知的隐藏信息 , 因此麻将属于非完美信息博弈 。
“海量不可见的隐藏信息使得AI很难挖掘出从已知牌面到最优策略之间的逻辑链路 , 在非完美信息博弈中 , 麻将属于非常复杂的类型 。 ”刘铁岩举了一个例子 , 麻将牌有136张 , 在开局时的排列组合是6人德州扑克的10的90次方倍;开局后一个玩家的手牌确定了 , 但他看不到其他三个玩家的手牌 , 这些隐藏信息有高达10的48次方种可能 。
巨大的状态空间和隐藏信息及其带来的不确定性使AI模型很难使用传统的蒙特卡罗数搜索算法 。 刘铁岩表示 , 但从另一角度而言 , 一旦成功可能会让AI具备前辈们没有的新智能 。
“微软亚洲研究院的研究员是一群好奇心很强的人 , 在这种好奇心的驱动下 , 我们不断探索未知 , 寻求答案 , 因此决定通过麻将AI来破解非完美信息博弈 。 ”微软亚洲研究院首席研究员秦涛表示 , 团队采用的是基于强化学习的自我博弈技术 , 使得AI能够自我学习 , 自我提高 。
【麻将|麻将AI算法能用于投资预测?微软揭秘研发细节】目的是解决高度复杂的现实问题
棋盘游戏是人类智能的体现 , 游戏AI成为机器智能寻找突破的阵地 。 在过去的30年里 , AI在象棋、围棋等游戏中都逐步战胜了人类 。 但AI真的已经如此聪明了吗?
秦涛说:“可能大家不太相信 , 其实我们这帮研究员都是麻将菜鸟 。 但是我们也能训练出非常厉害的麻将AI 。 ”
在训练过程中 , 刘铁岩团队利用隐藏的信息 , 从“上帝视角”对Suphx进行了线下指导 。 “正是因为有太多的隐藏信息 , 所以我们引入了一个‘上帝视角’ , 它知道所有的完美信息 , 可以利用这个完美信息下的最优打法来指导Suphx的学习过程 。 另一方面 , 完美信息也可以告诉AI , 一个牌局的输赢是因为打得好 , 还是因为牌面的运气好 , 这样可以提供更有效的学习方向 。 ”
经过一段时间的线下训练 , Suphx可以在专业麻将平台与人类玩家进行线上实战 , 实战中因为手牌和底牌千变万化 , 因此Suphx也需要随机应变 。 于是 , 刘铁岩团队又提出了动态自适应技术 , 使得Suphx能够在牌局中随时调整策略 , 决定何时进攻何时防守 , 提高胜算 。
在微软亚洲研究院看来 , 麻将AI不是为了在麻将桌上打败人类 , 而是让人类从另一个角度来看待世界 , 比如解决问题的全新思路 , 增强人类智能 。 就像AI在打麻将时 , 面对着巨大的不可知信息 , 我们的生活也会在随时出现突发情况或黑天鹅事件 。 从这个意义上讲 , 麻将比任何棋牌都要更加接近真实世界 。
潘天佑表示 , “这种机器学习的技术可以应用在更多现实场景中 , 例如我们将先知教练的算法应用在AI投资领域 , 场景上和麻将也是有类似之处的 , 都具有相当丰富的隐藏信息” 。
“我们希望AI在非完美信息博弈领域的突破 , 有助于解决高度复杂的现实问题 , 帮助人类应对更多更大的挑战 。 ”刘铁岩说道 。
每日经济新闻


    推荐阅读