|携Science封面,CMU大神Noam博士毕业,论文已公开( 二 )
CFR 中的剪枝流程 。
将 CFR 扩展至大型博弈
作者描述了通过自动抽象和函数近似算法将 CFR 扩展至大型博弈的新方法 。
具体而言 , 作者介绍了首个在不完美信息博弈中离散化连续动作空间的算法 , 该算法被证明局部最优 。 但是 , 这种算法需要大量的领域知识 , 并且难以扩展至其他博弈中 。
本文插图
以往方法的局限性 。
所以 , 作者提出了 CFR 的一种变体 Deep CFR , 它使用了神经网络函数近似 , 而没有使用基于 bucketing 的抽象 。 Deep CFR 是首个可以扩展至大型博弈的 non-tabular 形式的 CFR , 并且使得 CFR 在几乎没有领域知识的设置下实现部署 。
本文插图
利用 Deep CFR 扩展至大型博弈中 。
不断改进的搜索技术
作者提出了一种新的不完美信息博弈搜索技术 , 该技术确保智能体的搜索策略不被对手利用 。 这些新的搜索形式在理论和实践两方面均优于以往方法 。
此外 , 作者介绍了一种深度受限(depth-limited)搜索方法 , 它的计算成本显著低于以往方法 。
本文插图
Pluribus 算法中的深度受限搜索 。
最后 , 作者提出了一种新型 ReBel 算法 , 它在训练和测试时结合强化学习和搜索 , 并为缩小完美信息博弈和不完美信息博弈研究的差距迈出了关键一步 。
本文插图
在双人无限注德州扑克中的结果对比 。
以下是博士论文的章节目录:
本文插图
本文插图
本文插图
本文插图
致力于德扑游戏 AI 研究的 CMU 大神 Noam Brown
本文插图
Noam Brown , Facebook 人工智能实验室的研究科学家 , 他致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统 , 其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus 。 这两个游戏 AI 系统为 Noam Brown 带来了巨大的荣誉 。
2017 年 , Noam Brown 与其导师 Tuomas Sandholm 开发的 AI 系统 Libratus 在宾夕法尼亚州匹兹堡 Rivers 赌场持续 20 天 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家 。 该研究登上了《科学》杂志 , 与研究相关的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也获得了 NIPS 2017 最佳论文奖 。
此外 , Noam 团队还因此获得了 IJCAI 颁发的第二枚马文 · 明斯基奖章(Marvin Minsky Medal) 。
本文插图
Noam 在 IJCAI 2019 大会上领取马文 · 明斯基奖章证书 。
2019 年 , Noam Brown 与其导师 Tuomas Sandholm 在 Libratus 的基础上 , 开发出了所需算力更少的新算法 Pluribus 。 在为期 12 天、超过 10000 手牌的比赛中 , Pluribus 击败了 15 名人类顶级玩家 。
推荐阅读
- 中年|《经济学人》封面文章解析蚂蚁集团:数字技术的崛起代表了金融的未来
- 智能机器人|《科学-机器人》封面:真正的仿生手来了,可恢复截肢者90%以上功能
- 封面新闻|开国内先河 “四川造”无人直升机完成首次高原自主航线飞行
- 封面新闻|封面夜读丨我们为什么总是那么忙?
- 中年|可编程的磁驱动软体机器人来了!Science 子刊:背后原理 19 世纪末提出
- 作业帮|作业帮王家耀:科技抗疫助力入选“封面新经济战疫力量”榜,将继续重投技术
- 科学|七月份的《自然-癌症》有哪些好文?
- 新机发布|封面 5G手机迎来千元价位 realmeX7系列让机圈再次沸腾