这是迄今为止,AlphaGo算法最清晰的解读!( 三 )


最后,AlphaGo还有一个mini的policy net,叫rollout 。它是用来上面所说的模仿中,迅速模仿的终局的 。它的输入比正常policy net小,它的模型也小,所以它的耗时是2奥妙,而一个policy要3毫秒 。它没有policy准,但是它快 。
总结一下policy 。它是用来预测下一步 大概 该走哪里 。它应用了深度学习,监视学习,加强学习等办法 。它重要用于每次模仿中的bonus的先验(我大概该怎么走),和value net的学习(后面的重点) 。
如果单纯用policy预测的着法来作为最优着法,不通过value net的盘算和上面说的模仿,对职业棋手那是不行的 。但是,单纯用policy预测已经足够打败以前的围棋AI(大约有业余5段实力)了 。这解释了上面3种学习办法的壮大威力 。
AlphaGo就看了一眼,还没有推演,你们就败了 。policy net为解开那个逝世结走出了第一步,下面我们就讲讲这第二个 神器 :value net 。
10、第二神器value net怎么工作的?
前面说了,形势断定是什么无迹可寻,就连职业9段也做不到 。有了policy net,全部世界都不一样了 。AlphaGo她的灵魂核心就在下面这个公式里 。
V*(s)=Vp*(s)约等于Vp(s) 。
s是棋盘的状况,就是前面说的19*19,每个交叉3种状况 。
V是对这个状况的评估,就是说黑赢的概率是多少 。
V*是这个评估的真值 。
p*是正解(发生正解的policy)
p是AlphaGo前面所说学到的最强的policy net 。
如果模仿以后每步都是正解p*,其成果就是V*,这说明了等号 。
如果你知道V*这个函数,在当前局势,你要对走下一步(围棋平均有250种可能性)后的状况s进行评估,选最大的V*走就行 。围棋就完善解决了 。但是,前面说了,V*不存在 。同样p*也不存在(理论上存在,实际因为搜索空间太大,盘算量太大找不到 。在5*5的棋盘中下棋可以做到) 。
AlphaGo天才般的用最强poilicy,p来近似正解p*,从而可以用p的模仿Vp来近似V* 。即使Vp只是一个近似,但已经比现在的职业9段好了 。想想她的p是从职业选手的着法学来的,就是你能想到的棋她都想到了 。而且她还在不断使的p更准 。顶尖职业棋手就想以后的20-40步,还会出错(错觉) 。AlphaGo是模仿到终局,还极少出错 。天哪,这人还怎么下 。
围棋问题实际是一个树搜索的问题,当前局势是树根,树根长出分支来(下步有多少可能性,棋盘上的空处都是可能的),这是树的广度,树不断生长(推演,模仿),直到叶子节点(终局,或者后面的局势) 。树根到叶子,分了多少次枝(推演的步数)是树的深度 。树的平均广度,深度越大,搜索越难,要的盘算越多 。围棋平均广度是250,深度150,象棋平均广度是35,深度80 。如果要遍历围棋树,要搜索250的150次方,是不实际的 。这也是围棋比象棋庞杂的多的原因之一 。但更主要的原因前面讲了:是象棋有比拟简略的手工可以做出的value函数 。比如,吃王(将)得正无限分,吃车得100分,等等 。1997年打败当时国际象棋世界冠军的DeepBlue就是人手工设计的value 。而围棋的value比象棋难太多了 。手工基本没法搞 。又只能靠深度学习了 。
在讲value的原理前,先看看定性看看value的成果 。如图,这是AlphaGo用value net预测的走下一步,她赢的概率 。空的处所都被蓝色标示了,越深解释AlphaGo赢的概率越高 。这和我们学的棋理是相符的,在没有战役时,1,2线(靠边的处所)和中间的概率都低,因为它们效力不高 。而且大多数处所的概率都接近50% 。所以说赢棋难,输棋也很难 。这当然消除双方剧烈战役的情形 。

这是迄今为止,AlphaGo算法最清晰的解读!

文章插图
这里讲讲怎么通过policy net 得到value net 。有了policy,value就不是那么难以捉摸了,逝世结打开了 。AlphaGo可以模仿(自己和自己下,黑白都用最强的policy),直到终局 。注意,这里的模仿和最初说的模仿有点不同 。最初的模仿是AlphaGo在下棋(线上)中用的,用来预测 。这里的模仿是她还在学习(线下)呢 。终局时V*(谁赢)就比拟容易断定了 。当然,对机器来说也不是那么容易的,但相对于中局来说是天渊之别 。
value net也是一个监视的深度学习的模型 。多次的模仿的成果(谁赢)为它供给监视信息 。它的模型构造和policy net类似,但是学的目的不同 。policy是下步走哪里,value是走这后赢的概率 。
总结一下,value net预测下一走这后,赢的概率 。本身无法得到 。但是通过用最强policy来近似正解,该policy的模仿来近似主变更(就围棋书上那个,假设书上是对的),模仿的成果来近似精确的形势断定V* 。value net用监视的深度学习去学模仿的得到的成果 。value net重要用于模仿(在线,下棋的时候)时,盘算Q值,就是平均的形势断定 。


推荐阅读