Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测( 四 )

return V
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
策略 V值 3D 可视化运行 first-visit 算法 , 模拟10000次 episode , fixed_policy 的 V值 的3D图为下面两张图 , 分别是不含 usable Ace 和包含 usable Ace。 总的说来 , 一旦玩家能到达20点或21点获胜概率极大 , 到达13-17获胜概率较小 , 在11-13时有一定获胜概率 , 比较符合经验直觉 。
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
同样运行 every-visit 算法 , 模拟10000次的 V值 图 。 对比两种方法结果比较接近 。
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
【Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测】点分享
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图
Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测文章插图


推荐阅读