这是迄今为止,AlphaGo算法最清晰的解读!( 五 )


14、AlphaGo下棋为什么花钱?
AlphaGo有单机版,多机(散布式) 。散布式显著比单机强 。去年的散布式有40个搜索线程,1202个CPU,176个GPU(显卡) 。和李世石下棋时可能更多 。这么多机器的运作和保护就是烧钱 。
15、AlphaGo有破绽吗?
AlphaGo解决的是一个树搜索问题,并不是遍历所有着法的可能性,她的着法只是接近正解,不是必定正解 。
最简略的人克服AlphaGo的办法就是改规矩,比如扩展棋盘 。人类能比拟简略的适应,搜索空间增大,AlphaGo不必定能适应 。
就现有状态来说,棋手可以重要攻击AlphaGo模仿中的着法选择函数a 。比如尽量下全局互相牵扯的棋(多劫,多块逝世活),就是尽量是中盘局势庞杂,不要搞一道本(一条路走到底)局部的着法,当然,这对职业选手也不简略 。
16、AlphaGo有哪些技巧突破,使她能克服人类顶尖棋手?
⑴继承了蒙特卡洛树搜索的框架进行模仿 。
⑵在学习policy中应用了监视学习,有效的应用现有的棋手的棋谱,学到了他们的选点策略 。
⑶在学习policy中应用了加强学习,从左右互搏中进步自己 。
⑷应用policy net(选点模型)近似正解,用policy net的对弈的成果模仿正解对弈的成果,即准确的形势断定,从而打破形势断定和选点相互嵌套的逝世结 。就是先学policy,再学value 。
⑸在学习policy,value,rollout中应用深度学习模型 。深度学习有非常强的学习才能 。使得选点和形势断定前所未有的准(比较蒙特卡洛是随机选点,现在是职业棋手帮她选点了) 。因为在每次模仿中用到了这两个 准,使得在树搜索(就是推演)的进程更有目标性(树大批减枝,只模仿比拟优秀的下法)
【这是迄今为止,AlphaGo算法最清晰的解读!】⑹当然还有机器一贯的优势,不疲劳,不受心理情感影响,不会错的记忆力等等 。


推荐阅读