新智元谷歌大脑提出并发RL算法,机器人也可以“边行动边思考”( 二 )


接下来 , 研究人员从连续时间强化学习的角度开始探索 , 因为它可以容易地表示出系统的并发特征 。
之后研究证明 , 基于连续时间强化学习得出的结论同样适用于随后在所有实验中更为常用的离散环境 。
实验表明:并发模型比阻塞模型提高49%
研究人员分别在仿真与机械手臂上进行了实验 , 它们的任务是抓取并移动垃圾箱中的各种物体 。
新智元谷歌大脑提出并发RL算法,机器人也可以“边行动边思考”
本文插图

仿真手臂与机械手臂的实验
新智元谷歌大脑提出并发RL算法,机器人也可以“边行动边思考”
本文插图

表 1 通过对无条件模型与并发知识模型进行比较总结了阻塞和并发模式的性能 。 并发知识模型能够学习更快的轨迹 , 其周期持续时间与阻塞模型相比减少了 31.3% 。
新智元谷歌大脑提出并发RL算法,机器人也可以“边行动边思考”
本文插图

研究人员表示 , 「这些模型在抓取成功方面性能相当 , 但就策略持续时间(用来衡量策略总执行时间)而言 , 并发模型比阻塞模型快49% 。 而且 , 并发模型能够执行更流利的动作 。 」
合著者认为 , 「他们研究的方法可以促进机器人的发展 , 让机器人在真实环境中完成任务 , 如在多层仓库和履行中心之间运输材料 。 」
参考链接:
https://arxiv.org/pdf/2004.06089.pdf
https://sites.google.com/view/thinkingwhilemoving
【新智元谷歌大脑提出并发RL算法,机器人也可以“边行动边思考”】https://venturebeat.com/2020/04/15/googles-ai-enables-robots-to-make-decisions-on-the-fly/


推荐阅读