|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 九 )

本文插图

图 12：联盟利用者探索（league exploiter discovery）的学习框架。图源：[14]
3.2. 多机器人避碰
在现实生活中，多机器人的应用场景主要是通过多个机器人的协作来提升系统的性能和效率，此时多智能体强化学习的关注重点主要在于机器人（智能体）之间的合作。
在移动机器人方面，自主避障导航是底层应用的关键技术，近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多；而当环境中存在多个移动机器人同时向各自目标点移动的时候，需要进一步考虑机器人之间的相互避碰问题，这也是 MARL 在多机器人导航（multi-robot navigation）领域的主要研究问题。 Jia Pan 教授团队 [13] 在控制多机器人避碰导航问题上使用了集中式学习和分布式执行的机制，在学习过程中机器人之间共享奖励、策略网络和值函数网络，通过共享的经验样本来引导相互之间达成隐式的协作机制。

本文插图

图 13：多机器人向各自目标点移动过程中的相互避碰。仓库物件分发是该问题的常见场景，多个物流机器人在向各自指定的目标点移动过程当中，需要避免和仓库中的其他物流机器人发生碰撞。图源：[15]
另外，不仅有机器人和机器人之间的避碰问题，有一些工作还考虑到了机器人和人之间的避碰问题，如 SA-CADRL（socially aware collision avoidance deep reinforcement learning）。根据该导航任务的具体设定（即机器人处在人流密集的场景中），在策略训练是引入一些人类社会的规则（socially rule），相当于要让机器人的策略学习到前面 1.2.3 部分提到显式的协调机制，达成机器人与人的行为之间的协作。

本文插图
图 14：左图展示了相互避碰时的两种对称规则，上面为左手规则，下面为右手规则。右图是在 SA-CADRL 方法中模型引入这样的对称性信息，第一层中的红色段表示当前智能体的观测值，蓝色块表示它考虑的附近三个智能体的观测值，权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为。图源：[16]
4. 总结
多智能体强化学习（MARL）是结合了强化学习和多智能体学习这两个领域的重要研究方向，关注的是多个智能体的序贯决策问题。本篇文章主要基于智能体之间的关系类型，包括完全合作式、完全竞争式和混合关系式，对多智能体强化学习的理论和算法展开介绍，并在应用方面列举了一些相关的研究工作。在未来，对 MARL 方面的研究（包括理论层面和应用层面）仍然需要解决较多的问题，包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等 [15] 。
参考文献：
[1] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[2] Zhang K , Yang Z , Baar T . Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms[J]. 2019.
[3] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey of multi-agent reinforcement learning,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 38, no. 2, pp. 156–172, Mar. 2008.
[4] Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. international conference on machine learning, 1994: 157-163.

|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 九 )

推荐阅读

彗星|“新智”彗星7月23日最接近地球错过要等6800年

女孩戴什么帽子洋气啊女孩戴什么帽子洋气啊图片

普拉达|为什么“普拉达”，一直被称为顶级奢侈品牌？难怪连明星都上头了

丰田汉兰达|官宣！国产SUV销量最新排名TOP100：哈弗H6力压长安CS75，荣威RX5破十万！

五条人|乐夏2刚开播，我就迷上了这些乐队的视觉设计！

“利奇马”已过境德州，今夜我市仍有中到大雨，局部暴雨

吉鲁|吉鲁头槌破门切尔西小胜不再“让四”

我叫一尾鱼|一周不重样，简单快手好吃，每天早起二十分钟为初中生准备的早餐

开发不得不知道的SQL注入

2020年12月21日木星土星大交汇 12月21号火星木星

「美好感情」越老越有福气，安享晚年！，老了最有福气的四大生肖

格莱雪再携泡茶专用水缘聚武夷茶博园

男子候诊时疑不满医生久未到，将女护士打成脑震荡

爱养生爱健康|肺不好的人，夏天做到这5点，止咳化痰平喘，冬天不再难受，轻松出门

跑者人生|除了可以让你变瘦之外，还可以收获这些好处，每天跳绳1000次

揭秘伪中医保健:打中药旗号卖保健品遇到问题投诉无门

中关村附近哪里能买到正宗的阳澄湖大闸蟹

张居正死后有多惨?张居正孙子被杀_1

青年|王者荣耀KPL转会瓜, 渡劫转会RNG.M, 770六点六退役？e星有大变动！

千年行|却迷恋各种丹药，最后竟因吃太多人心而亡，唐武宗并不昏庸