|AlphaGo原来是这样运行的,一文详解多智能体强化学习( 九 )
本文插图
图 12:联盟利用者探索(league exploiter discovery)的学习框架 。 图源:[14]
3.2. 多机器人避碰
在现实生活中 , 多机器人的应用场景主要是通过多个机器人的协作来提升系统的性能和效率 , 此时多智能体强化学习的关注重点主要在于机器人(智能体)之间的合作 。
在移动机器人方面 , 自主避障导航是底层应用的关键技术 , 近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多;而当环境中存在多个移动机器人同时向各自目标点移动的时候 , 需要进一步考虑机器人之间的相互避碰问题 , 这也是 MARL 在多机器人导航(multi-robot navigation)领域的主要研究问题 。 Jia Pan 教授团队 [13] 在控制多机器人避碰导航问题上使用了集中式学习和分布式执行的机制 , 在学习过程中机器人之间共享奖励、策略网络和值函数网络 , 通过共享的经验样本来引导相互之间达成隐式的协作机制 。
本文插图
图 13:多机器人向各自目标点移动过程中的相互避碰 。 仓库物件分发是该问题的常见场景 , 多个物流机器人在向各自指定的目标点移动过程当中 , 需要避免和仓库中的其他物流机器人发生碰撞 。 图源:[15]
另外 , 不仅有机器人和机器人之间的避碰问题 , 有一些工作还考虑到了机器人和人之间的避碰问题 , 如 SA-CADRL(socially aware collision avoidance deep reinforcement learning)。 根据该导航任务的具体设定(即机器人处在人流密集的场景中) , 在策略训练是引入一些人类社会的规则(socially rule) , 相当于要让机器人的策略学习到前面 1.2.3 部分提到显式的协调机制 , 达成机器人与人的行为之间的协作 。
本文插图
图 14:左图展示了相互避碰时的两种对称规则 , 上面为左手规则 , 下面为右手规则 。 右图是在 SA-CADRL 方法中模型引入这样的对称性信息 , 第一层中的红色段表示当前智能体的观测值 , 蓝色块表示它考虑的附近三个智能体的观测值 , 权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为 。 图源:[16]
4. 总结
多智能体强化学习(MARL)是结合了强化学习和多智能体学习这两个领域的重要研究方向 , 关注的是多个智能体的序贯决策问题 。 本篇文章主要基于智能体之间的关系类型 , 包括完全合作式、完全竞争式和混合关系式 , 对多智能体强化学习的理论和算法展开介绍 , 并在应用方面列举了一些相关的研究工作 。 在未来 , 对 MARL 方面的研究(包括理论层面和应用层面)仍然需要解决较多的问题 , 包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等 [15] 。
参考文献:
[1] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[2] Zhang K , Yang Z , Baar T . Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms[J]. 2019.
[3] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey of multi-agent reinforcement learning,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 38, no. 2, pp. 156–172, Mar. 2008.
[4] Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. international conference on machine learning, 1994: 157-163.
推荐阅读
- |双11后第一个传破产的品牌,怎么混成这样了?
- |你见过这样的“跨界合作”吗?神奇的微藻吸的是二氧化碳吐的却是燃料
- 小鹅|如何利用社交圈在双11突出重围,腾讯小鹅拼拼这样做
- TAKSTAR得胜|原来一套音箱就能实现聚会BBQ户外K歌!
- 睿当家科技|汉堡王风波不断!超6770万!被法院列为被执行人,他们这样回应
- 爱玛游戏视频|做自媒体拍视频,总是忘词怎么办?这样做能很好解决问题
- 每日热点生活|洗菜又出新花样,学校食堂员工被曝这样洗 校方回应来了
- 向奋科技说资讯|用了5年华为手机才发现,原来华为能当翻译器,一键翻译多国语言
- 嘟嘟谈数码|OPPO智能电视R1攻略:深挖细节,原来玩法这么多
- 识物客|拖地原来可以这么轻松,吉米W7无线智能洗地机体验浅谈设计:实际使用(除污场景):总结与建议: