|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 四 )

隐式的协作机制
在智能体之间需要相互协商、从而达成最优的联合动作的问题中，个体之间的相互建模，能够为智能体的决策提供潜在的协调机制。在联合动作学习（joint action learner ， JAL）[6]方法中，智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模。在频率最大 Q 值（frequency maximum Q-value, FMQ）[7]方法中，在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率，从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作，那么所有智能体的最优动作组合被选择的概率也会更高。
JAL 和 FMQ 方法的基本思路都是基于均衡求解法，但这类方法通常只能处理小规模（即智能体的数量较少）的多智能体问题：在现实问题中，会涉及到大量智能体之间的交互和相互影响，而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况。在大规模多智能体学习问题中，考虑群体联合动作的效应，包括当前智能体受到的影响以及在群体中发挥的作用，对于智能体的策略学习是有较大帮助的。

本文插图

基于平均场理论的多智能体强化学习（Mean Field MARL, MFMARL）方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法，它将传统强化学习方法（Q-learning）和平均场理论（mean field theory）相结合。平均场理论适用于对复杂的大规模系统建模，它使用了一种简化的建模思想：对于其中的某个个体，所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量。此时，对于其中一个个体来说，所有其他个体的影响相当于一个单体对于它的影响，这样的建模方式能够有效处理维度空间和计算量庞大的问题。
MFMARL 方法基于平均场理论的建模思想，将所有智能体看作一个“平均场” ，个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响，从而简化了后续的分析过程。

本文插图

图 5：基于平均场理论的多智能体建模方式，单个智能体只考虑与相邻的其他智能体（蓝色球体区域）的相互作用。图源：[8]
首先，为了处理集中式全局值函数的学习效果会受到智能体数量（联合动作的维度）的影响，对值函数进行分解。对于单个智能体 j ，它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用：

本文插图

然后，将平均场理论的思想结合到上式中。考虑离散的动作空间，单个智能体的动作采用 one-hot 编码的方式，即 aj=[h(aj_1), ... h(aj_d)] ，其中 h(aj_i)=1 if aj=aj_i ?: 0；其他相邻智能体的动作可以表示为平均动作bar和一个波动δ的形式：

本文插图

利用泰勒二阶展开，得到

本文插图

该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用，简化为当前智能体 j 和虚拟智能体bar的相互作用，是平均场思想在数学形式上的体现。此时，在学习过程中，迭代更新的对象为平均场下的 Q(s,aj,bar)值（即 MF-Q），有：

本文插图

在更新中使用 v 而不是使用 max Q 的原因在于：对 Q 取 max ，需要相邻智能体策略bar的合作，而对于智能体 j 来说是无法直接干涉其他智能体的决策情况；另一方面，贪心的选择依旧会导致学习过程受到环境不稳定性的影响。

|AlphaGo原来是这样运行的，一文详解多智能体强化学习( 四 )

推荐阅读

「青岛疫情」青岛此次疫情由患者共用CT室引发院内感染仍是防治难点

「新华网」美国导演斯派克·李出任戛纳电影节评委会主席

ITheat热点科技你需要一台提升学习政策、思想利器，建党99周年

游戏攻略|丢失的魔典被盗的王国第十三章过关玩法全流程通关技巧攻略

河南省第一大城市，比4个开封还大，相当于5个安阳，是你家吗？

刘海|女生最显老的三款发型，你踩雷了吗？

意大利|《弥留之国的爱丽丝》，披着爽感的外壳探讨人性

钛媒体APP新基建不能只搞基建

生活大动静|中国接手开工十年后，老外：难以置信，土耳其百亿高难度高铁订单

车壹条|比亚迪宋PLUS靠什么跻身主流？，不止于“颜值革命”

|医保！你知道多少？（第四期）

神经病是什么神经病的症状

一口吃掉童年忧愁|首位球衣退役的外援，CBA历史第一外援积臣去哪了？现状如何？

『』如何瘦下来？牢记“2478”数字原则，4周体脂率下降5%

大葱炒羊肉怎么做

刺五加籽治疗高血压吗

#鹤城政法#这5家商业网站受理了全国8成网络举报，上个月

东方网|现代技术要素市场创新发展论坛在沪举行

海特生物子公司新冠检测试剂盒已具备出口条件

炉石传说|炉石传说：聊聊“暗月马戏团”和恩佐斯的关系，提前了解新版本