强化学习,没办法定义episode的终点咋办
定个小目标开始,后面做大目标
■网友的回复
【强化学习,没办法定义episode的终点咋办】 Infinite Horizon的问题有非常多处理套路。第一点是必须设置
; 第二是人为截断episode。但是做这个事情的时候必须非常小心。 人为截断episode并不是自然的episode结束,而是你自己设置的,这种情况在TD学习时必须搭配合理的terminal状态的设定。 例如如果你采用如下TD的公式,它可能就不适用于人工截断episode的情况
这是因为s_t 对应的下一个状态实际不是终止态,而是你人工截断的状态。但是使用如上公式时,你相当于对一个虚拟的终止态赋予了实际物理意义。然而这是不正确的。
避免这种情况存在至少两种处理方法。1是把终止态设为真实下一个状态而不是人为终止态的Q函数为0. 2是直接丢弃掉最后一个样本。
■网友的回复
可以试试用 average reward MDP建模. 可以没有终点.
■网友的回复
那就设置奖励点,不一定完成任务,只要到了一个过程存档,然后奖励自己就好了,培养自己的条件反射~
推荐阅读
- 目前在俄罗斯学习语言,对象在浙江二线城市,异国恋,我们以后有可能吗
- 去北京干剪辑还是留在小城市律师事务所学习考司法
- 高中女生独居应该怎样安排生活与学习
- (高一)我现在遇到心理问题与现实生活中的问题,真的不知道该咋办了,能不能给我一个好的建议或办法谢谢
- 为啥健身容易上瘾,而学习英语如此枯燥
- 我只有一部手机,该咋赚钱和学习
- 背诵对于学习的重要性
- 在使用行为消失程序时,为啥由间歇性强化维持的问题行为比由持续性强化维持的问题行为更难以消除?
- 我一直觉得家庭对生活和学习的影响很大,有没有单亲家庭的孩子考上985或211的,请讲一下经历或感触。
- 北京学习藏语的机构有哪些最好是正规院校的培训。