苏眠月|使用价值迭代网络进行规划( 三 )


但是 , 对于我们甚至无法访问转换模型的描述而且可能没有获得奖励函数的复杂问题 , 这显然是无法做到的 , 那么我们如何在更有趣的问题中使用它呢?
价值迭代网络伯克利的研究人员在NIPS2016上发表了一篇非常有趣的论文(他们获得了最佳论文奖) , 试图通过赋予神经网络在其中执行类似过程的能力 , 以非常优雅的方式解决这个问题 。 这个想法是这样的:因为我们并不真正知道我们真正问题的潜在MDP , 我们可以让我们的神经网络学习一些其他MDP , 这与真实的MDP不同 , 但它为真正的问题提供了有用的计划 。 他们展示了他们在2D导航问题上的方法 , 其中输入是包含目标位置和障碍物的地图的图像 。
虽然这个2D导航任务看起来很简单 , 但实际上看起来很困难 。 在一组训练地图上训练标准的CNN政策是有效的 , 但对于看不见的地图则相对较差 。 使用VIN , 作者展示了对看不见的地图的广泛改进的泛化能力 。 除了简单的网格世界导航任务之外 , 他们还使用月球表面高程图像展示了他们的导航问题算法 , 其中漫游者必须在不可遍历的特征之间安全地导航 , 并且使用自然语言输入在Web导航问题上 。
【苏眠月|使用价值迭代网络进行规划】我发现模型可以纯粹从图像输入中学习这些 , 我觉得非常惊人 , 我们可以将这种成功归因于架构产生的固有归纳偏差 , 这迫使模型以类似于规划算法的方式执行计算 。 从那以后 , 这项工作并扩展到 , 但仍然是一项非常令人印象深刻的成就 。


推荐阅读