|1种策略控制多种模型，华人学生提出RL泛化方法，LeCun认可转发( 二 )

本文插图

如图所示，图中红色圈内的三个模型虽然结构相似，但运动的步态却几乎完全不同。
不仅如此，训练过程中还有意外收获。

本文插图

研究者们发现在训练过程中，这种学习策略还生成了一些以前完全没见过的智能体模型，这些模型可能同时有好几条腿、或是非常重的手臂。
如果在测试时适当地调整模型结构，这种策略也能很好地将它们保持平衡。
但目前也有一点小问题，如果将某一部分肢体的肌肉放大到超乎常理、或是将腿部完全去掉，可能会导致模型失去平衡。

本文插图

无论如何，这个学习策略所展示出来的模型泛化能力已经足够引人惊叹。
有网友猜测，兴许这是图神经网络的一项应用。

本文插图

这真不错！信息通过肌肉架构传递，且拥有共享权重？听起来GNN能完成得很好。
也有网友表示，这也许是将强化学习应用到电子游戏和机器人之外的更广泛领域的一个契机。

本文插图

如果我们可以将强化学习应用到电子游戏和机器人以外的方向，这会是一次很有意思的研究。
华人一作
这篇论文的第一作者Wenlong Huang ，目前在加州大学伯克利分校就读大二，学习计算机视觉。

本文插图
高中时，他曾与加州大学圣迭戈分校的Zhuowen Tu教授共同研究3D生成模型，目前感兴趣的研究方向是强化学习、机器人和计算机视觉。
除此之外，他的业余爱好也很广泛，不仅喜欢拉小提琴，也钻研摄影方向。
论文链接：https://arxiv.org/abs/2007.04976
参考链接：https://www.reddit.com/r/MachineLearning/comments/hpajb2/r_one_policy_to_control_them_all_shared_modular/
— 完 —
量子位 QbitAI · ***签约
【|1种策略控制多种模型，华人学生提出RL泛化方法，LeCun认可转发】关注我们，第一时间获知前沿科技动态

|1种策略控制多种模型，华人学生提出RL泛化方法，LeCun认可转发( 二 )

推荐阅读

菲律宾|不愿意充当美军马前卒，杜特尔特态度逆转，航母刚走就瞬间认怂了

米饭|几道美味菜肴，简单易学，每次做都担心米饭不够

西藏纳木错是我国第几大咸水湖纳木错湖是海拔最高的湖

男人戒酒喝这水，肾脏越喝越虚！

澎湃|上海科技馆、自博馆自7月21日起恢复团队接待和影院开放

「体坛焦点」平均年薪3000万，名记：布雷迪预计将加盟坦帕湾海盗

镜子发型|2020精选“不老气”发型16款，无论长短都很美，看看你喜欢哪一款

打新娘 * (打屁屁的视频)**

「林火」澳大利亚林火还在烧

冬天只需吃这一物让你百病消

[人民前线]侦察兵里当尖兵！，00后上等兵

保山警方安全头盔又救一命！，71岁老人骑摩托追尾

食材▲9道适合瘦身喝的汤，低脂低卡，每天一碗，不用节食也能瘦

海陆空天惯性世界|到底买不买，俄罗斯决定敲山震虎：苏35千里奔袭土耳其身下软肋

电脑的网络带宽测试软件推荐带宽测试软件点对点

这道酥到掉渣的老婆饼真的是不讲究，有啥放啥都好吃

小雪+雨夹雪＋霾！未来三天，注意这些事→

整治|已整治“散乱污”场所1.3万家，白云超前完成年度“小目标”

每经9点丨国家卫健委：昨日新增确诊病例99例

以下哪个圣痕没有负面以下哪个圣痕没有负面效果