苏眠月|使用价值迭代网络进行规划( 二 ) 虽然强化学习算法的设计使得该策略应该

假设我们的代理位于地图的左下角，并且必须安全地导航到绿色区块。必须区分规划轨迹或寻找政策。如果我们计划一个轨迹，我们将得到一个序列，指定应该采取行动的顺序，例如：（向上，向上，向右，向右，向右）。如果我们的问题是确定性的，选择一个方向会使我们的代理人在这个方向上有100％的机会，那么这将对应于轨迹：
但回到我们的例子，我们如何才能找到如上图所示的最优政策？对于称为值迭代的这类问题，存在一种经典算法。该算法的作用是计算当前处于某种状态可以实现的长期利益，通过提出问题"如果我从这个状态开始，我能获得的最大利润是多少？" 。这个数量被称为MDP术语中的状态值，直观上很容易看出，如果我们知道每个州的价值，我们可以尝试始终转移到具有更高价值的国家并从中获益。
假设我们知道问题中所有状态的最优值;V*（s），我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*（S ， A）。

苏眠月|使用价值迭代网络进行规划( 二 )

推荐阅读

常熟男装品牌有哪些牌子常熟男装品牌

卢明财经|涨跌幅20%，大白话为你解读哪些投资要点？，创业板迎来注册制

通古今史|演个渣男许幻山却能一夜爆红？37岁的李泽锋把“渣”演到了骨子里

北京8月28日无新增新冠肺炎确诊病例

摩托罗拉|moto X30 Pro标配125W氮化镓充电器！公有协议最高100W输出

经济日报|“抗疫队长”屡遭诋毁，美疫情政治化太“荒诞”

二居室的房子，足足90平米，如果用方式8万元是不是很划算？

游戏|9月第二批65款版号，网易客户端游戏《永劫无间》过审

淘宝新品如何补单淘宝补单怎么补多少合适

ps怎么导出gif动图，ps要咋滴才能导出GIF格式的动图

自己经常放臭屁或者身边有人经常放臭屁是啥体验

马内|英超滑稽一幕！切尔西8000万门将白送大礼，传球给对手打空门！

[趣旅游]雁门关景区半价邀约全国游客春日“踏青”，登长城看边塞赏春色

信阳新闻网|以昂扬斗志踏实作风创新精神续写县域经济社会发展新篇章，尚朝阳到息县调研重点项目建设工作时强调

卫星|高分多模！大美中国！

头皮有白色成片结痂

冬季话“冬藏”

能源评论|中国光伏开启“高功率时代”，疫情也挡不住技术升级

白色的球是什么球光遇白色的球是什么

一半秋色|就坐上他那辆四轮车？故意耍帅吗？，诸葛亮为什么只要一出征