这是迄今为止,AlphaGo算法最清晰的解读!( 五 )
14、AlphaGo下棋为什么花钱?
AlphaGo有单机版,多机(散布式) 。散布式显著比单机强 。去年的散布式有40个搜索线程,1202个CPU,176个GPU(显卡) 。和李世石下棋时可能更多 。这么多机器的运作和保护就是烧钱 。
15、AlphaGo有破绽吗?
AlphaGo解决的是一个树搜索问题,并不是遍历所有着法的可能性,她的着法只是接近正解,不是必定正解 。
最简略的人克服AlphaGo的办法就是改规矩,比如扩展棋盘 。人类能比拟简略的适应,搜索空间增大,AlphaGo不必定能适应 。
就现有状态来说,棋手可以重要攻击AlphaGo模仿中的着法选择函数a 。比如尽量下全局互相牵扯的棋(多劫,多块逝世活),就是尽量是中盘局势庞杂,不要搞一道本(一条路走到底)局部的着法,当然,这对职业选手也不简略 。
16、AlphaGo有哪些技巧突破,使她能克服人类顶尖棋手?
⑴继承了蒙特卡洛树搜索的框架进行模仿 。
⑵在学习policy中应用了监视学习,有效的应用现有的棋手的棋谱,学到了他们的选点策略 。
⑶在学习policy中应用了加强学习,从左右互搏中进步自己 。
⑷应用policy net(选点模型)近似正解,用policy net的对弈的成果模仿正解对弈的成果,即准确的形势断定,从而打破形势断定和选点相互嵌套的逝世结 。就是先学policy,再学value 。
⑸在学习policy,value,rollout中应用深度学习模型 。深度学习有非常强的学习才能 。使得选点和形势断定前所未有的准(比较蒙特卡洛是随机选点,现在是职业棋手帮她选点了) 。因为在每次模仿中用到了这两个 准,使得在树搜索(就是推演)的进程更有目标性(树大批减枝,只模仿比拟优秀的下法)
【这是迄今为止,AlphaGo算法最清晰的解读!】⑹当然还有机器一贯的优势,不疲劳,不受心理情感影响,不会错的记忆力等等 。
推荐阅读
- 大学生|职场上要和同事保持真诚,这是最基本的原则
- 毛绒玩具怎么选?如何鉴别好坏
- 电影票|《头文字D》中的周杰伦,特别有看点,因为这是他第一次主演电影
- 五险一金是怎么回事
- 金·卡戴珊|金·卡戴珊语出惊人,称要用母亲的骨头做项链。克丽丝·金纳:这是个好主意!
- 蔡少芬|朱茵:这是我的18岁,刘亦菲:这是我的18岁,蔡少芬:麻烦靠边
- 黑鞋怎么搭配黑裤子?这是我见过最显高的搭配!
- 相声|早年间的郭德纲相声充分发挥了讽刺作用,这是与马季的歌颂型不同
- 伊桑·霍克|伊桑·霍克:放着天后老婆不喜欢,却离婚娶了保姆,这是为何?
- 有些年轻人明知道自己患有心理疾病,却不敢就医,这是为什么?