Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测( 四 )
return V
文章插图
策略 V值 3D 可视化运行 first-visit 算法 , 模拟10000次 episode , fixed_policy 的 V值 的3D图为下面两张图 , 分别是不含 usable Ace 和包含 usable Ace。 总的说来 , 一旦玩家能到达20点或21点获胜概率极大 , 到达13-17获胜概率较小 , 在11-13时有一定获胜概率 , 比较符合经验直觉 。
文章插图
文章插图
同样运行 every-visit 算法 , 模拟10000次的 V值 图 。 对比两种方法结果比较接近 。
文章插图
文章插图
文章插图
文章插图
文章插图
【Sutton 强化学习,21 点游戏的策略蒙特卡洛值预测】点分享
文章插图
文章插图
推荐阅读
- 计算机专业大一下学期,该选择学习Java还是Python
- 假期弯道超车 国美学习“神器”助孩子变身“学霸”
- 想自学Python来开发爬虫,需要按照哪几个阶段制定学习计划
- 未来想进入AI领域,该学习Python还是Java大数据开发
- Google AI建立了一个能够分析烘焙食谱的机器学习模型
- 学习大数据是否需要学习JavaEE
- 学习“时代楷模”精神 信息科技创新助跑5G智慧港口
- 非计算机专业的本科生,想利用寒假学习Python,该怎么入手
- ?优学天下带着学习机冲刺上市,智能教育硬件有多烧钱?
- 数据分析与机器学习:侦测应用内机器人作弊关键