AlphaGo Zero 能够取得突破的关键瓶颈在哪里谢邀。一句话

谢邀。一句话概括就是 DeepMind 整体对强化学习的深入探究指导了 Zero 的设计。
首先很感谢 DeepMind 团队对人类关于围棋认知的贡献。但更令人兴奋的是，人工智能技术能够取得的成就已经让人类感到震惊。相信不久的未来来自全球各地的团队会带来越来越多的全新体验和认知升级。
理念层面，我觉得 DeepMind 对事物本质的探求是其不断突破天花板的源泉。抓住一个小小的口子，比如 DQN 上的突破，将整个领域切开，迅速找到能够解决得很好的问题，逐步形成更深的领域认知。大多数设计者对于围棋这款游戏是充满的热情和好奇的。
AlphaGo 的能力决定因素有几点：MCTS、RL 及 Deep Learning。用于近似的神经网络也能够受益于深度学习飞速发展不断进步。随着层次和结构的复杂，网络的表达能力已经在很多任务上超过人类最佳水平。比如 ImageNet 任务的ResNet。
RL 技术历史悠远，但近来的发展同样喜人。来自各个方向的学者贡献了大量的创新思路。有些是将几十年前的论文思想发展，有些也是新人老人结合产生的突破。
除了软件和算法的进步，硬件设施的针对性的调整确实也能够让模型训练变得更加快速。
下面看看具体的点，
First and foremost, it is trained solely by self-play reinforcement learning, starting from random play, without any supervision or use of human data. 这次的算法更加像是传统的强化学习模型，直接通过 trial-and-error 进行学习，而不需要人类的经验数据。这可能是最关键的突破点。怎么去自我对弈，这也是很有讲究的。其中的奥妙就是算法设计的精妙之处，比如说在德州扑克中的一些 self-play 的方法。
Second, it only uses the black and white stones from the board as input 选择黑白子作为输入
Third, it uses a single neural network, rather than separate policy and value networks. 这里的影响应该不大，但是也需要解决一些问题，或者说这样的处理就是更为直接的结构，我们去设计算法的时候觉得理解方便的模型，说不定却对真实问题的认知缺乏足够的复杂度的。这里面其实关键是深度学习的模型的能力提升，使得我们可以直接用单个神经网络来刻画原来需要两个网络的特性。
Finally, it uses a simpler tree search that relies upon this single neural network to evaluate positions and sample moves, without performing any MonteCarlo rollouts. 直接通过上述神经网络来评估位置和采样走法，不需要 Monte Carlo 的 rollouts。这对于加快训练肯定是很有帮助的。所以深度学习的发展也还是能够增强 AlphaGo Zero 的网络的表达能力和预测能力。
To achieve these results, we introduce a new reinforcement learning algorithm that incorporates lookahead search inside the training loop, resulting in rapid improvement and precise and stable learning.lookahead 搜索起到了关键作用。

关键作用几乎全部是算法层面的创新设计。

附 DeepMind 在 AMA 上的回答：
AMA: We are David Silver and Julian Schrittwieser from DeepMind’s AlphaGo team. Ask us anything. 由 David_Silver 於 MachineLearning 發佈

We\u0026#39;ve open sourced a lot of our code in the past, but it\u0026#39;s always a complex process. And in this case, unfortunately, it\u0026#39;s a prohibitively intricate codebase.

【AlphaGo Zero 能够取得突破的关键瓶颈在哪里】 David_Silver 3 指標 13 分鐘前
Interpretability is a really interesting question for all of our systems, not just AlphaGo. We have teams working across DeepMind trying to come up with novel ways to interrogate our systems. Most recently they published work that draws on techniques from cognitive psychology to try to decipher what is happening inside matching networks… and it worked pretty nicely!

AlphaGo Zero 能够取得突破的关键瓶颈在哪里

推荐阅读

dead是什么意思？

「DNF心情屋」力量破1.1W，打桩伤害1.6W亿！，DNF：旭旭宝宝红眼100级装备达成

过道：火车卧铺旅行，为何头朝过道休息？乘务员专业解释

投资|高毅、涌金、保银投资！私募巨头们美股买了啥？

人民日报|香港舆论：美方打“香港牌”图谋绝不会得逞

微雅丽育儿经|二胎时代：儿子名字反过来是女儿？明星田亮的教育方式值得借鉴

青岛已采样27.7万余份进行核酸检测

代驾怎么叫女司机;微信如何叫代驾微信怎么叫代驾？

管辖法院@岳阳法院交出行政诉讼集中管辖改革一周年答卷

北京市的市中心是北京房价最高的区域吗

史上第一个病毒叫什么历史第一恐怖的病毒是什么

谷歌用算力爆了一篇论文，解答有关无限宽度网络的一切

穿搭|邓家佳气场全开，一袭黑色斜肩鱼尾礼服优雅性感，S型曲线太迷人

▲可以把个人的兴趣变成工作来做吗？

杨婉琴细说教育|现在结婚都这么喝么？，搞笑GIF：大哥

如果黑洞靠近地球如果一厘米大的黑洞接近地球会怎样,视频

书桌|定制书桌设计如何打造地更完美？

熊猫娱乐|叶玉卿全家出海钓鱼，大女儿秀火辣身材，心情不受破产影响

陕西一高校送学生油泼辣子月饼-陕西高校食堂做特色风味月饼赠师生

『愤怒的咩师兄』又一坦克崛起，同级完虐对手！，王者荣耀更新