|携Science封面，CMU大神Noam博士毕业，论文已公开( 二 )

CFR 中的剪枝流程。
将 CFR 扩展至大型博弈
作者描述了通过自动抽象和函数近似算法将 CFR 扩展至大型博弈的新方法。
具体而言，作者介绍了首个在不完美信息博弈中离散化连续动作空间的算法，该算法被证明局部最优。但是，这种算法需要大量的领域知识，并且难以扩展至其他博弈中。

本文插图

以往方法的局限性。
所以，作者提出了 CFR 的一种变体 Deep CFR ，它使用了神经网络函数近似，而没有使用基于 bucketing 的抽象。 Deep CFR 是首个可以扩展至大型博弈的 non-tabular 形式的 CFR ，并且使得 CFR 在几乎没有领域知识的设置下实现部署。

本文插图

利用 Deep CFR 扩展至大型博弈中。
不断改进的搜索技术
作者提出了一种新的不完美信息博弈搜索技术，该技术确保智能体的搜索策略不被对手利用。这些新的搜索形式在理论和实践两方面均优于以往方法。
此外，作者介绍了一种深度受限（depth-limited）搜索方法，它的计算成本显著低于以往方法。

本文插图

Pluribus 算法中的深度受限搜索。
最后，作者提出了一种新型 ReBel 算法，它在训练和测试时结合强化学习和搜索，并为缩小完美信息博弈和不完美信息博弈研究的差距迈出了关键一步。

本文插图

在双人无限注德州扑克中的结果对比。
以下是博士论文的章节目录：

本文插图

本文插图

本文插图

本文插图

致力于德扑游戏 AI 研究的 CMU 大神 Noam Brown

本文插图

Noam Brown ， Facebook 人工智能实验室的研究科学家，他致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统，其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus 。这两个游戏 AI 系统为 Noam Brown 带来了巨大的荣誉。
2017 年， Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。该研究登上了《科学》杂志，与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖。
此外， Noam 团队还因此获得了 IJCAI 颁发的第二枚马文 · 明斯基奖章（Marvin Minsky Medal）。

本文插图

Noam 在 IJCAI 2019 大会上领取马文 · 明斯基奖章证书。
2019 年， Noam Brown 与其导师 Tuomas Sandholm 在 Libratus 的基础上，开发出了所需算力更少的新算法 Pluribus 。在为期 12 天、超过 10000 手牌的比赛中， Pluribus 击败了 15 名人类顶级玩家。

|携Science封面，CMU大神Noam博士毕业，论文已公开( 二 )

推荐阅读

央视|因家中有人感染新冠病毒丹麦卫生大臣进行自我隔离

如何看待4g牌照发了，但是中国联通的股票并没有因为这一利好信息，而上涨，反而一直下跌?

财务如何写年终总结财务年度总结

|内审经验——明白了职场中的权力基础，才知道怎么混职场

急性冠周炎

「宝宝缺铁」宝宝缺铁的症状有哪些

特斯拉|特斯拉Model Y刹车灯亮后追尾！车主发声：未踩刹车单踏板的“锅”

李冰冰 |大花、85花、95后新人花同台吸睛比美，47岁的李冰冰赢了？

破次元跨界！梦洁家纺携手超人气国漫玩转国潮家居！

小暖妈妈说|窝外怂”的孩子，多半是性格缺陷，爸妈需要做好这2步，“窝里横

「柠檬」柠檬鸡脚的做法

发型|“发型”对气质的影响太大，在女星身上充分体现，普通人也能学学

「新生儿惊厥」新生儿惊厥是怎么回事三个改变是判断要点

WEEK UP探展 | 时尚，向文化复兴致敬

【人民日报客户端】新一轮强降雨加速入秋进程华南需警惕秋台风影响

伊朗|电竞都准备进奥运了，伊朗女孩们还因为玩电子游戏而流落异国

九游网|《下一站江湖》如来神掌怎么获取如来神掌获取攻略

『高考生门锁坏了被锁家中』高考生门锁坏了被锁家中是怎么回事?原来是这样

找不到人生的主线任务咋办?

绿叶的舞曲|“三顾茅庐”的经过是什么？诸葛亮为何要将刘备两次拒之门外？