|AlphaGo原来是这样运行的,一文详解多智能体强化学习( 四 )
隐式的协作机制
在智能体之间需要相互协商、从而达成最优的联合动作的问题中 , 个体之间的相互建模 , 能够为智能体的决策提供潜在的协调机制 。 在联合动作学习(joint action learner , JAL)[6]方法中 , 智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模 。 在频率最大 Q 值(frequency maximum Q-value, FMQ)[7]方法中 , 在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率 , 从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作 , 那么所有智能体的最优动作组合被选择的概率也会更高 。
JAL 和 FMQ 方法的基本思路都是基于均衡求解法 , 但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中 , 会涉及到大量智能体之间的交互和相互影响 , 而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况 。 在大规模多智能体学习问题中 , 考虑群体联合动作的效应 , 包括当前智能体受到的影响以及在群体中发挥的作用 , 对于智能体的策略学习是有较大帮助的 。
本文插图
基于平均场理论的多智能体强化学习(Mean Field MARL, MFMARL)方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法 , 它将传统强化学习方法(Q-learning)和平均场理论(mean field theory)相结合 。 平均场理论适用于对复杂的大规模系统建模 , 它使用了一种简化的建模思想:对于其中的某个个体 , 所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量 。 此时 , 对于其中一个个体来说 , 所有其他个体的影响相当于一个单体对于它的影响 , 这样的建模方式能够有效处理维度空间和计算量庞大的问题 。
MFMARL 方法基于平均场理论的建模思想 , 将所有智能体看作一个“平均场” , 个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响 , 从而简化了后续的分析过程 。
本文插图
图 5:基于平均场理论的多智能体建模方式 , 单个智能体只考虑与相邻的其他智能体(蓝色球体区域)的相互作用 。 图源:[8]
首先 , 为了处理集中式全局值函数的学习效果会受到智能体数量(联合动作的维度)的影响 , 对值函数进行分解 。 对于单个智能体 j , 它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用:
本文插图
然后 , 将平均场理论的思想结合到上式中 。 考虑离散的动作空间 , 单个智能体的动作采用 one-hot 编码的方式 , 即 aj=[h(aj_1), ... h(aj_d)] , 其中 h(aj_i)=1 if aj=aj_i ?: 0;其他相邻智能体的动作可以表示为平均动作bar和一个波动δ的形式:
本文插图
利用泰勒二阶展开 , 得到
本文插图
该式子即是将当前智能体 j 与其他相邻智能体 k 的相互作用 , 简化为当前智能体 j 和虚拟智能体bar的相互作用 , 是平均场思想在数学形式上的体现 。 此时 , 在学习过程中 , 迭代更新的对象为平均场下的 Q(s,aj,bar)值(即 MF-Q) , 有:
本文插图
在更新中使用 v 而不是使用 max Q 的原因在于:对 Q 取 max , 需要相邻智能体策略bar的合作 , 而对于智能体 j 来说是无法直接干涉其他智能体的决策情况;另一方面 , 贪心的选择依旧会导致学习过程受到环境不稳定性的影响 。
推荐阅读
- |双11后第一个传破产的品牌,怎么混成这样了?
- |你见过这样的“跨界合作”吗?神奇的微藻吸的是二氧化碳吐的却是燃料
- 小鹅|如何利用社交圈在双11突出重围,腾讯小鹅拼拼这样做
- TAKSTAR得胜|原来一套音箱就能实现聚会BBQ户外K歌!
- 睿当家科技|汉堡王风波不断!超6770万!被法院列为被执行人,他们这样回应
- 爱玛游戏视频|做自媒体拍视频,总是忘词怎么办?这样做能很好解决问题
- 每日热点生活|洗菜又出新花样,学校食堂员工被曝这样洗 校方回应来了
- 向奋科技说资讯|用了5年华为手机才发现,原来华为能当翻译器,一键翻译多国语言
- 嘟嘟谈数码|OPPO智能电视R1攻略:深挖细节,原来玩法这么多
- 识物客|拖地原来可以这么轻松,吉米W7无线智能洗地机体验浅谈设计:实际使用(除污场景):总结与建议: