|1种策略控制多种模型,华人学生提出RL泛化方法,LeCun认可转发
萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI
如果给你几十甚至几百种模型 , 让你用1种策略对它们进行训练 , 怎么做?
本文插图
上图中的这些智能体模型 , 不仅仅模拟「人」的动作 , 有些还代表着「四足动物」、「两足动物」 , 亦或者是特殊形态的「机器人」的行为 。
智能体 , 能进行自主活动的硬件或软件实体 。 例如 , 可以是某种智能机器人 。
而所有的这些智能体 , 都能通过1种策略来表达 。
通过强化学习 , 模型中分散的肢体间也能进行消息传递 , 甚至能表示出训练中没有发现的模型 。
论文在Reddit上po出后 , 一天之内就获得了近900热度 。
本文插图
与此同时 , Twitter上也获得了Yann LeCun的转发 。
对于强化学习 , LeCun曾经给出过比喻:「如果智能是蛋糕 , 无监督学习就是那块蛋糕 , 有监督学习是糖衣 , 而强化学习则是糖衣上的樱桃 。 」
本文插图
但现在看来 , LeCun似乎对于这份强化学习的研究非常感兴趣 。
毕竟 , 就个体差异而言 , 仅通过1个策略达到控制多种不同形状的智能体 , 需要模型具有很好的泛化能力 。
来看看研究者们是怎么实现这个策略的 。
整体架构原理
首先 , 将所有智能体放在一起进行训练 。
不同的是 , 相比于对模型架构进行整体训练 , 他们将智能体拆解成多个肢体部分 , 分别进行训练 。
本文插图
这个策略中权重(πθ)被智能体中的所有肢体部分共享 , 也就是说 , 不仅对于其中一个肢体是这样 , 其他智能体的肢体也是如此 。
为了确保肢体协调 , 各肢体间可以进行信息传递 。
本文插图
每个肢体之间都有自己的位置 , 传递信息的顺序基本都遵循由下至上、再由上至下 。
本文插图
最后 , 动作会在向下的信息传递中被预测 。
整体模型结构如下图所示 。
本文插图
在这期间 , 图左的智能体控制器和图中间拥有共同参数的沟通模块会被放在一起训练 , 学习如何将信息传递给右边的中心控制器 。
这样的策略 , 被称为模块化共享策略SMP(Shared Modular Policies) 。
研究者们希望能了解到通过SMP , 模型进行信息传递的效果 。
下图从左至右分别展示了随着训练次数的增加 , 某一模型从上至下进行信息传递的信息量 。
可以看见 , 模型在运动过程中的信息量会有峰值 , 为保持模型平衡进行大量信息传递 。
本文插图
所以 , 为了保持平衡 , 模型在运动过程中将会进行大量信息传递 , 尤其是在「双腿」迈开时 。
而肢体间的这些信息传递也是这种学习策略得以泛化模型的关键 。
训练效果
从训练结果来看 , 即使是有着相似结构的模型 , 在步态上也能展示出几乎完全不一样的效果 。
推荐阅读
- 推特|推特回应“史诗级漏洞”:黑客锁定130个账号,控制45个发文
- 控制器|消息称苹果将推出游戏控制器:为搭载A12X的Apple TV 6准备
- |华为Mate40被曝启用双芯片策略,备选暂未确定
- 苹果手机|原创 新款iPhone12定价再曝光!再次上演"性价比"策略:让库克信心十足
- 蒂姆·库克|原创 新款iPhone12定价再曝光!再次上演"性价比"策略:让库克信心十足
- 5G|首架商用5G无人机投入生产,可在世界任何地方实时控制
- 策略|想做好网络营销?这些定位策略步骤不要错过
- 准度科技|想做好网络营销?这些定位策略步骤不要错过
- 飞行控制|北京航天飞行控制中心周密做好我国首次火星探测飞控任务准备
- 爱奇艺|“后贴片时代” 爱奇艺跨屏联投新策略“贴片+”,实现高效投放