苏眠月|使用价值迭代网络进行规划( 三 )
但是 , 对于我们甚至无法访问转换模型的描述而且可能没有获得奖励函数的复杂问题 , 这显然是无法做到的 , 那么我们如何在更有趣的问题中使用它呢?
价值迭代网络伯克利的研究人员在NIPS2016上发表了一篇非常有趣的论文(他们获得了最佳论文奖) , 试图通过赋予神经网络在其中执行类似过程的能力 , 以非常优雅的方式解决这个问题 。 这个想法是这样的:因为我们并不真正知道我们真正问题的潜在MDP , 我们可以让我们的神经网络学习一些其他MDP , 这与真实的MDP不同 , 但它为真正的问题提供了有用的计划 。 他们展示了他们在2D导航问题上的方法 , 其中输入是包含目标位置和障碍物的地图的图像 。
【苏眠月|使用价值迭代网络进行规划】我发现模型可以纯粹从图像输入中学习这些 , 我觉得非常惊人 , 我们可以将这种成功归因于架构产生的固有归纳偏差 , 这迫使模型以类似于规划算法的方式执行计算 。 从那以后 , 这项工作并扩展到 , 但仍然是一项非常令人印象深刻的成就 。
推荐阅读
- 苏眠月|电视老大出手,直接拿下日本第一,最难啃的市场也被攻克
- 中国智能制造网|配套弹性架构迭代翻新,人工智能芯片加快升级
- 苏眠月|还自己一份清净,在耳朵上按一个“降噪键”
- 苏眠月|日本半导体或动摇美国电子产业,焦头烂额!美国打压华为成全日本
- 前瞻网|大搜车姚军红:如何在摸底爬高的产业升级路上自我迭代
- 苏眠月|3000元内组装实用主机,完美度过大学时光,年轻人第一台电脑
- 驱动中国|成立联合创新中心,技术迭代更新慢?制冷、材料学会同时看好海尔智家
- 苏眠月|世纪之争丨芯片制造的关键材料有哪些?
- 苏眠月|30S手机评测:麒麟820 5G芯片的首款完美手机,喜欢吗,围观!荣耀
- 苏眠月|为什么光刻机比原子弹还难造?网友:十万个零件不是吹的