|AlphaGo原来是这样运行的,一文详解多智能体强化学习( 四 )


隐式的协作机制
在智能体之间需要相互协商、从而达成最优的联合动作的问题中 , 个体之间的相互建模 , 能够为智能体的决策提供潜在的协调机制 。 在联合动作学习(joint action learner , JAL)[6]方法中 , 智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模 。 在频率最大 Q 值(frequency maximum Q-value, FMQ)[7]方法中 , 在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率 , 从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作 , 那么所有智能体的最优动作组合被选择的概率也会更高 。
JAL 和 FMQ 方法的基本思路都是基于均衡求解法 , 但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中 , 会涉及到大量智能体之间的交互和相互影响 , 而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况 。 在大规模多智能体学习问题中 , 考虑群体联合动作的效应 , 包括当前智能体受到的影响以及在群体中发挥的作用 , 对于智能体的策略学习是有较大帮助的 。
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

基于平均场理论的多智能体强化学习(Mean Field MARL, MFMARL)方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法 , 它将传统强化学习方法(Q-learning)和平均场理论(mean field theory)相结合 。 平均场理论适用于对复杂的大规模系统建模 , 它使用了一种简化的建模思想:对于其中的某个个体 , 所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量 。 此时 , 对于其中一个个体来说 , 所有其他个体的影响相当于一个单体对于它的影响 , 这样的建模方式能够有效处理维度空间和计算量庞大的问题 。
MFMARL 方法基于平均场理论的建模思想 , 将所有智能体看作一个“平均场” , 个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响 , 从而简化了后续的分析过程 。
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

图 5:基于平均场理论的多智能体建模方式 , 单个智能体只考虑与相邻的其他智能体(蓝色球体区域)的相互作用 。 图源:[8]
首先 , 为了处理集中式全局值函数的学习效果会受到智能体数量(联合动作的维度)的影响 , 对值函数进行分解 。 对于单个智能体 j , 它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用:
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

然后 , 将平均场理论的思想结合到上式中 。 考虑离散的动作空间 , 单个智能体的动作采用 one-hot 编码的方式 , 即 aj=[h(aj_1), ... h(aj_d)] , 其中 h(aj_i)=1 if aj=aj_i ?: 0;其他相邻智能体的动作可以表示为平均动作bar和一个波动δ的形式:
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

利用泰勒二阶展开 , 得到
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用 , 简化为当前智能体 j 和虚拟智能体bar的相互作用 , 是平均场思想在数学形式上的体现 。 此时 , 在学习过程中 , 迭代更新的对象为平均场下的 Q(s,aj,bar)值(即 MF-Q) , 有:
|AlphaGo原来是这样运行的,一文详解多智能体强化学习
本文插图

在更新中使用 v 而不是使用 max Q 的原因在于:对 Q 取 max , 需要相邻智能体策略bar的合作 , 而对于智能体 j 来说是无法直接干涉其他智能体的决策情况;另一方面 , 贪心的选择依旧会导致学习过程受到环境不稳定性的影响 。


推荐阅读