|1种策略控制多种模型，华人学生提出RL泛化方法，LeCun认可转发

萧箫发自凹非寺量子位报道 | 公众号 QbitAI
如果给你几十甚至几百种模型，让你用1种策略对它们进行训练，怎么做？

本文插图

上图中的这些智能体模型，不仅仅模拟「人」的动作，有些还代表着「四足动物」、「两足动物」，亦或者是特殊形态的「机器人」的行为。
智能体，能进行自主活动的硬件或软件实体。例如，可以是某种智能机器人。
而所有的这些智能体，都能通过1种策略来表达。
通过强化学习，模型中分散的肢体间也能进行消息传递，甚至能表示出训练中没有发现的模型。
论文在Reddit上po出后，一天之内就获得了近900热度。

本文插图

与此同时， Twitter上也获得了Yann LeCun的转发。
对于强化学习， LeCun曾经给出过比喻：「如果智能是蛋糕，无监督学习就是那块蛋糕，有监督学习是糖衣，而强化学习则是糖衣上的樱桃。」

本文插图

但现在看来， LeCun似乎对于这份强化学习的研究非常感兴趣。
毕竟，就个体差异而言，仅通过1个策略达到控制多种不同形状的智能体，需要模型具有很好的泛化能力。
来看看研究者们是怎么实现这个策略的。
整体架构原理
首先，将所有智能体放在一起进行训练。
不同的是，相比于对模型架构进行整体训练，他们将智能体拆解成多个肢体部分，分别进行训练。

本文插图

这个策略中权重（πθ）被智能体中的所有肢体部分共享，也就是说，不仅对于其中一个肢体是这样，其他智能体的肢体也是如此。
为了确保肢体协调，各肢体间可以进行信息传递。

本文插图

每个肢体之间都有自己的位置，传递信息的顺序基本都遵循由下至上、再由上至下。

本文插图

最后，动作会在向下的信息传递中被预测。
整体模型结构如下图所示。

本文插图

在这期间，图左的智能体控制器和图中间拥有共同参数的沟通模块会被放在一起训练，学习如何将信息传递给右边的中心控制器。
这样的策略，被称为模块化共享策略SMP（Shared Modular Policies）。
研究者们希望能了解到通过SMP ，模型进行信息传递的效果。
下图从左至右分别展示了随着训练次数的增加，某一模型从上至下进行信息传递的信息量。
可以看见，模型在运动过程中的信息量会有峰值，为保持模型平衡进行大量信息传递。

本文插图

所以，为了保持平衡，模型在运动过程中将会进行大量信息传递，尤其是在「双腿」迈开时。
而肢体间的这些信息传递也是这种学习策略得以泛化模型的关键。
训练效果
从训练结果来看，即使是有着相似结构的模型，在步态上也能展示出几乎完全不一样的效果。

|1种策略控制多种模型，华人学生提出RL泛化方法，LeCun认可转发

推荐阅读

界面新闻|消费者报告｜虚假手机维修店层出不穷，线上线下频现“暗箱操作”

本源量子计算美国研究人员开发预测量子计算材料的新方法

教育部：今年考研国家分数线预计4月中旬左右公布

安博电竞巴菲特|巴西老大哥MIBR缘何引火上身，安博电竞「anbo.pro」节奏不断

游戏新一|我很想做作业啊，可我家的山羊不同意啊！，搞笑GIF：老师

戏说健康|刘嘉玲越老越会玩，姐妹派对、春秋最大却最“有料”，保养得够狠

羽雯华|街拍,,身段一级棒的街头女神, 圆润上围引来无数目光！

菠萝因子|免疫＋靶向强强联手，晚期肝癌治疗取得重大突破！

还总盯着欧美穿搭？如今国内女生穿搭才是百花齐放，看着更养眼

三年级家长会上老师的发言稿，先收藏起来三年级家长会班主任发言稿

高铁|成都贵阳将迎来新高铁，全长633公里，全线共设17个站点！

电影|六小龄童电影定档，取经四人组重聚，观众会为情怀支持吗？

武城县|混入班级群冒充班主任进行诈骗两名“假老师”教师节被抓落网

木公微视界|”，爆笑段子：“谁还要上厕所？我们已经9个人了

财华社|文件指汇控(00005-HK)在得悉投资骗局下仍容许骗徒转移巨额款项

那雪白的蓑毛的意思蓑毛的意思

乌俄友好条约到期，乌克兰不再续约

怎样开一家美甲店？开美甲店

李诗沣|羽超半决赛跌宕起伏名将新秀敢打敢拼竞相出彩

暑期到了，东宝床垫根植环保守护健康睡眠