人工智能|1种策略就控制多类模型,华人学生提出RL泛化方法,LeCun认可转发
如果给你几十甚至几百种模型 , 让你用1种策略对它们进行训练 , 怎么做?
本文插图
上图中的这些智能体模型 , 不仅仅模拟「人」的动作 , 有些还代表着「四足动物」、「两足动物」 , 亦或者是特殊形态的「机器人」的行为 。
智能体 , 能进行自主活动的硬件或软件实体 。 例如 , 可以是某种智能机器人 。而所有的这些智能体 , 都能通过1种策略来表达 。
通过强化学习 , 模型中分散的肢体间也能进行消息传递 , 甚至能表示出训练中没有发现的模型 。
论文在Reddit上po出后 , 一天之内就获得了近900热度 。
本文插图
【人工智能|1种策略就控制多类模型,华人学生提出RL泛化方法,LeCun认可转发】
与此同时 , Twitter上也获得了Yann LeCun的转发 。
对于强化学习 , LeCun曾经给出过比喻:「如果智能是蛋糕 , 无监督学习就是那块蛋糕 , 有监督学习是糖衣 , 而强化学习则是糖衣上的樱桃 。 」
本文插图
但现在看来 , LeCun似乎对于这份强化学习的研究非常感兴趣 。
毕竟 , 就个体差异而言 , 仅通过1个策略达到控制多种不同形状的智能体 , 需要模型具有很好的泛化能力 。
来看看研究者们是怎么实现这个策略的 。
整体架构原理
首先 , 将所有智能体放在一起进行训练 。
不同的是 , 相比于对模型架构进行整体训练 , 他们将智能体拆解成多个肢体部分 , 分别进行训练 。
本文插图
这个策略中权重(πθ)被智能体中的所有肢体部分共享 , 也就是说 , 不仅对于其中一个肢体是这样 , 其他智能体的肢体也是如此 。
为了确保肢体协调 , 各肢体间可以进行信息传递 。
本文插图
每个肢体之间都有自己的位置 , 传递信息的顺序基本都遵循由下至上、再由上至下 。
本文插图
最后 , 动作会在向下的信息传递中被预测 。
整体模型结构如下图所示 。
本文插图
在这期间 , 图左的智能体控制器和图中间拥有共同参数的沟通模块会被放在一起训练 , 学习如何将信息传递给右边的中心控制器 。
这样的策略 , 被称为模块化共享策略SMP(Shared Modular Policies) 。
研究者们希望能了解到通过SMP , 模型进行信息传递的效果 。
下图从左至右分别展示了随着训练次数的增加 , 某一模型从上至下进行信息传递的信息量 。
可以看见 , 模型在运动过程中的信息量会有峰值 , 为保持模型平衡进行大量信息传递 。
本文插图
所以 , 为了保持平衡 , 模型在运动过程中将会进行大量信息传递 , 尤其是在「双腿」迈开时 。
而肢体间的这些信息传递也是这种学习策略得以泛化模型的关键 。
训练效果
从训练结果来看 , 即使是有着相似结构的模型 , 在步态上也能展示出几乎完全不一样的效果 。
推荐阅读
- 青年|汕头华侨试验区探索以人工智能、5G赋能产业转型升级
- 行业互联网,AI人工智能|城市教育大脑以“ AI+ 大数据”为核心 , 引领教育变革
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 人工智能|哈工智能布局“AI+ROBOT”生态圈
- 人工智能|马斯克宣布,脑机接口公司将在下月重磅更新,赛博格将成为现实?
- 人工智能|敏捷开发框架的开发运用之智能办公管理系统的开发
- 人工智能|人工智能上车就是聊天唱歌?TA还能给你有温度有情感的陪伴
- 行业互联网,云计算|赛伯乐携手华为(重庆)人工智能创新中心聚焦AI前沿,助力企业数字化转型
- |华为Mate40被曝启用双芯片策略,备选暂未确定
- 苹果手机|原创 新款iPhone12定价再曝光!再次上演"性价比"策略:让库克信心十足