AlphaGo Zero 能够取得突破的关键瓶颈在哪里( 三 )



■网友
传统的人工智能是从已有的经验(数据)中掌握规律,对训练数据质量要求很高。zero这个确实意义很大。但是围棋棋盘大小固定规则不变,总的来说所有可能可以遍历。但是现实中很多应用可能性几乎是无穷的,变量不断增多规则不断改变,离这个应用还是很远(比如金融,比如打星际)
■网友
按照AlphaGo团队自己发表的论文说:
“AlphaGo Zero与AlphaGo Fun和AlphaGo Lee相比,有一些重要的不同之处。首先,也是最终要的,它只通过与自己博弈进行强化训练,开始于随机对弈,没有采用任何监督及人工数据。其次,它仅使用棋盘上的黑白子作为输入特征。第三,它使用单一的神经网络,而不是相互分离的策略网络和价值网络。最后,它使用一个简单搜索树,依靠这一单一的神经网络评价位置和落子价值,不执行任何蒙特卡罗推导。为了达到上述成果,我们采用了一种新的增强学习算法,该算法将前向搜索结合入训练循环,其结果是快速提升和精确稳定的学习。搜索算法的更多不同,训练程序和网络架构参见Methods。”


推荐阅读