假设我们的代理位于地图的左下角 , 并且必须安全地导航到绿色区块 。 必须区分规划轨迹或寻找政策 。 如果我们计划一个轨迹 , 我们将得到一个序列 , 指定应该采取行动的顺序 , 例如:(向上 , 向上 , 向右 , 向右 , 向右) 。 如果我们的问题是确定性的 , 选择一个方向会使我们的代理人在这个方向上有100%的机会 , 那么这将对应于轨迹:
但回到我们的例子 , 我们如何才能找到如上图所示的最优政策?对于称为值迭代的这类问题 , 存在一种经典算法 。 该算法的作用是计算当前处于某种状态可以实现的长期利益 , 通过提出问题"如果我从这个状态开始 , 我能获得的最大利润是多少?" 。 这个数量被称为MDP术语中的状态值 , 直观上很容易看出 , 如果我们知道每个州的价值 , 我们可以尝试始终转移到具有更高价值的国家并从中获益 。
假设我们知道问题中所有状态的最优值;V*(s) , 我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*(S , A) 。
推荐阅读
-
-
卢明财经|涨跌幅20%,大白话为你解读哪些投资要点?,创业板迎来注册制
-
通古今史|演个渣男许幻山却能一夜爆红?37岁的李泽锋把“渣”演到了骨子里
-
-
摩托罗拉|moto X30 Pro标配125W氮化镓充电器!公有协议最高100W输出
-
经济日报|“抗疫队长”屡遭诋毁,美疫情政治化太“荒诞”
-
二居室的房子,足足90平米,如果用方式8万元是不是很划算?
-
游戏|9月第二批65款版号,网易客户端游戏《永劫无间》过审
-
-
ps怎么导出gif动图,ps要咋滴才能导出GIF格式的动图
-
-
马内|英超滑稽一幕!切尔西8000万门将白送大礼,传球给对手打空门!
-
[趣旅游]雁门关景区半价邀约全国游客春日“踏青”,登长城看边塞赏春色
-
信阳新闻网|以昂扬斗志踏实作风创新精神续写县域经济社会发展新篇章,尚朝阳到息县调研重点项目建设工作时强调
-
-
-
-
能源评论|中国光伏开启“高功率时代”,疫情也挡不住技术升级
-
-
一半秋色|就坐上他那辆四轮车?故意耍帅吗?,诸葛亮为什么只要一出征