苏眠月|使用价值迭代网络进行规划( 三 ) 虽然强化学习算法的设计使得该策略应该

但是，对于我们甚至无法访问转换模型的描述而且可能没有获得奖励函数的复杂问题，这显然是无法做到的，那么我们如何在更有趣的问题中使用它呢？
价值迭代网络伯克利的研究人员在NIPS2016上发表了一篇非常有趣的论文（他们获得了最佳论文奖），试图通过赋予神经网络在其中执行类似过程的能力，以非常优雅的方式解决这个问题。这个想法是这样的：因为我们并不真正知道我们真正问题的潜在MDP ，我们可以让我们的神经网络学习一些其他MDP ，这与真实的MDP不同，但它为真正的问题提供了有用的计划。他们展示了他们在2D导航问题上的方法，其中输入是包含目标位置和障碍物的地图的图像。
虽然这个2D导航任务看起来很简单，但实际上看起来很困难。在一组训练地图上训练标准的CNN政策是有效的，但对于看不见的地图则相对较差。使用VIN ，作者展示了对看不见的地图的广泛改进的泛化能力。除了简单的网格世界导航任务之外，他们还使用月球表面高程图像展示了他们的导航问题算法，其中漫游者必须在不可遍历的特征之间安全地导航，并且使用自然语言输入在Web导航问题上。
【苏眠月|使用价值迭代网络进行规划】我发现模型可以纯粹从图像输入中学习这些，我觉得非常惊人，我们可以将这种成功归因于架构产生的固有归纳偏差，这迫使模型以类似于规划算法的方式执行计算。从那以后，这项工作并扩展到，但仍然是一项非常令人印象深刻的成就。

苏眠月|使用价值迭代网络进行规划( 三 )

推荐阅读

常熟男装品牌有哪些牌子常熟男装品牌

卢明财经|涨跌幅20%，大白话为你解读哪些投资要点？，创业板迎来注册制

通古今史|演个渣男许幻山却能一夜爆红？37岁的李泽锋把“渣”演到了骨子里

北京8月28日无新增新冠肺炎确诊病例

摩托罗拉|moto X30 Pro标配125W氮化镓充电器！公有协议最高100W输出

经济日报|“抗疫队长”屡遭诋毁，美疫情政治化太“荒诞”

二居室的房子，足足90平米，如果用方式8万元是不是很划算？

游戏|9月第二批65款版号，网易客户端游戏《永劫无间》过审

淘宝新品如何补单淘宝补单怎么补多少合适

ps怎么导出gif动图，ps要咋滴才能导出GIF格式的动图

自己经常放臭屁或者身边有人经常放臭屁是啥体验

马内|英超滑稽一幕！切尔西8000万门将白送大礼，传球给对手打空门！

[趣旅游]雁门关景区半价邀约全国游客春日“踏青”，登长城看边塞赏春色

信阳新闻网|以昂扬斗志踏实作风创新精神续写县域经济社会发展新篇章，尚朝阳到息县调研重点项目建设工作时强调

卫星|高分多模！大美中国！

头皮有白色成片结痂

冬季话“冬藏”

能源评论|中国光伏开启“高功率时代”，疫情也挡不住技术升级

白色的球是什么球光遇白色的球是什么

一半秋色|就坐上他那辆四轮车？故意耍帅吗？，诸葛亮为什么只要一出征