强化学习,没办法定义episode的终点咋办

定个小目标开始,后面做大目标
■网友的回复
【强化学习,没办法定义episode的终点咋办】 Infinite Horizon的问题有非常多处理套路。第一点是必须设置
强化学习,没办法定义episode的终点咋办
; 第二是人为截断episode。但是做这个事情的时候必须非常小心。 人为截断episode并不是自然的episode结束,而是你自己设置的,这种情况在TD学习时必须搭配合理的terminal状态的设定。 例如如果你采用如下TD的公式,它可能就不适用于人工截断episode的情况
强化学习,没办法定义episode的终点咋办
这是因为s_t 对应的下一个状态实际不是终止态,而是你人工截断的状态。但是使用如上公式时,你相当于对一个虚拟的终止态赋予了实际物理意义。然而这是不正确的。
避免这种情况存在至少两种处理方法。1是把终止态设为真实下一个状态而不是人为终止态的Q函数为0. 2是直接丢弃掉最后一个样本。
■网友的回复
可以试试用 average reward MDP建模. 可以没有终点.
■网友的回复
那就设置奖励点,不一定完成任务,只要到了一个过程存档,然后奖励自己就好了,培养自己的条件反射~


    推荐阅读