Sutton 强化学习，21 点游戏的策略蒙特卡洛值预测( 四 ) 作者|MyEncyclopedia来源|MyEncycloped

return V
文章插图
策略 V值 3D 可视化运行 first-visit 算法，模拟10000次 episode ， fixed_policy 的 V值的3D图为下面两张图，分别是不含 usable Ace 和包含 usable Ace。总的说来，一旦玩家能到达20点或21点获胜概率极大，到达13-17获胜概率较小，在11-13时有一定获胜概率，比较符合经验直觉。
文章插图
文章插图
同样运行 every-visit 算法，模拟10000次的 V值图。对比两种方法结果比较接近。
文章插图
文章插图
文章插图
文章插图
文章插图
【Sutton 强化学习，21 点游戏的策略蒙特卡洛值预测】点分享
文章插图
文章插图

Sutton 强化学习，21 点游戏的策略蒙特卡洛值预测( 四 )

推荐阅读

豪门明星|男网红晒账单炫富！买110万铂金包订300万家具，打扮女性化惹争议

国际茶价走高印度茶出口产量均呈负增长

蓝科技网|世界第一个AI图像传感器又是索尼制造

煤气炉什么牌子好(什么牌子的煤气灶好用又省气)

用文艺照进现实《故事里的中国》第二季致敬新时代最闪亮的星

军武阅读：能造几个航母？，如果我国每人出100块

小熊议情感|“逆商，让你的人生更高级”，原创

上岸人的独白|清华重返榜首，哈工大第六，复旦跌至第十，双一流大学评选收官

烹饪|洋葱焖猪排，快手焗鱼，涝汁凉拌金针菇，干煸菜花的做法

洋葱|全美洋葱中毒事态进一步扩大

win10系统如何共享打印机共享

BAT|没错，互联网进入到了下半场

中国历史上第一位女诗人，以女子身拯救母国于存亡之际

健康王医师|排毒养颜，延缓衰老，脸部皮肤白皙光滑，每天晚上吃3种食物

马来西亚|马来西亚出现超强变异毒株：传染性是原来10倍，现有疫苗或对其无效

陈凯歌|原创《演员2》郭敬明又任性？跟李成儒又舌战，陈凯歌飙英文表达不满

“欢乐春节·中国印象”演出在希腊雅典大学举办

公交车|这一脚，太暖心……

|接连“盯上”十几家企业，卖冰箱也不放过？，美国又开始“作妖”

历史劲爆点：缘分与桃花情意绵绵，主动去挽回幸福爱情的4大生肖！，两周之内