强化学习，没办法定义episode的终点咋办定个小目标开

定个小目标开始，后面做大目标
■网友的回复
【强化学习，没办法定义episode的终点咋办】 Infinite Horizon的问题有非常多处理套路。第一点是必须设置
$强化学习，没办法定义episode的终点咋办$
; 第二是人为截断episode。但是做这个事情的时候必须非常小心。人为截断episode并不是自然的episode结束，而是你自己设置的，这种情况在TD学习时必须搭配合理的terminal状态的设定。例如如果你采用如下TD的公式，它可能就不适用于人工截断episode的情况
$强化学习，没办法定义episode的终点咋办$
这是因为s_t 对应的下一个状态实际不是终止态，而是你人工截断的状态。但是使用如上公式时，你相当于对一个虚拟的终止态赋予了实际物理意义。然而这是不正确的。
避免这种情况存在至少两种处理方法。1是把终止态设为真实下一个状态而不是人为终止态的Q函数为0. 2是直接丢弃掉最后一个样本。
■网友的回复
可以试试用 average reward MDP建模. 可以没有终点.
■网友的回复
那就设置奖励点，不一定完成任务，只要到了一个过程存档，然后奖励自己就好了，培养自己的条件反射~

强化学习，没办法定义episode的终点咋办

推荐阅读

西安有哪些好玩的大学生组织吗

有关中秋的故事(有关中秋的故事)

集团|旭辉集团：6月销售面积同比增逾20% 上半年销售数据同比微降

军武阅读：萨达姆的黄金AK只能垫底，全球最贵的4把枪

明朝出了个张居正?明朝大臣张居正简介

[幼儿园]这些时间都定了！幼儿园开学、中考、暑假……

酸蕨菜的腌制方法是什么？

IOS系统苹果iOS 14 Beta 3暂时禁用3D Touch

吴艳妮带妆上阵再夺一冠，上台前告诉镜头：“给我拍好看点！”

康乃馨能放房间吗康乃馨能放卧室吗

违规|二氧化硫超标16倍，是谁把八角市场熏得乌烟瘴气？

梦幻西游|梦幻西游：帮战大佬65万买高德文武器，善恶兽决涨至7.5万

为啥在名牌大学却觉得身边人大多自认为平庸

婷小姐|荣耀30S对比荣耀X10，价位相同，该如何选择？

兜妈爱叨叨官方|评论区却让人没眼看，放过漂亮妈妈吧！苍井空网上晒娃秀幸福

杜甫的清明一首诗中的杏花村在哪,《清明》解读—杜牧为什么要去“杏花村”--

镜中月满瘤崖柏珠子新鲜出炉，文玩市场淘回来一个大根瘤

欧佳健康|想不长寿都难，国外饮食专家：寿命的85%由饮食决定！遵循5大原则

吃苹果到底是削皮好还是不削皮好,吃苹果要削皮好还是不削皮好-

举办|北京市青少年体育联合会举办会员代表大会