前世今生,带你了解AlphaGo的发展历程

阿尔法围棋(AlphaGo)是由英国伦敦谷歌(Google)旗下的DeepMind公司的大卫银、艾佳黄、戴维斯小姐和他们的团队开发的围棋人工智能程序 , “价值网络”
阿尔法go的主要设计师:
大卫席尔瓦(DavidSilver) , 剑桥大学计算机科学学士 , 硕士 , 加拿大艾伯塔大学计算机科学博士 。现在是伦敦大学研究生院的讲师和谷歌深度mind研究员 。

前世今生,带你了解AlphaGo的发展历程

文章插图
黄士杰(AJA) , 台湾交通大学计算机科学学士 , 台湾师范大学计算机科学硕士与博士 , 加拿大艾伯塔大学计算机科学博士博士后 。我现在是谷歌深度mind研究员 。
前世今生,带你了解AlphaGo的发展历程

文章插图
阿尔法围棋(阿尔法go)通过两个不同的神经网络“大脑”的合作来改善国际象棋 。这些大脑是多层神经网络 , 在结构上与谷歌图像搜索引擎识别图像相似 。它们从多层启发式二维滤波器开始 , 处理围棋盘的位置 , 就像图像分类器网络处理图像一样 。经过滤波 , 13个完全连接的神经网络层产生它们看到的局面的判断 。这些层可以分类和逻辑推理 。
这些网络反复训练检查结果 , 校准和调整参数 , 使下次运行更好 。由于这个处理器有大量的随机因素 , 人们不能准确地知道网络是如何“思考”的 , 但通过更多的训练可以进化成更好的东西 。
前世今生,带你了解AlphaGo的发展历程

文章插图
第一大脑:落子选择器(MovePicker) ) 。
【前世今生,带你了解AlphaGo的发展历程】阿尔法围棋(阿尔法戈)的第一个神经网络大脑是“监督学习的战略网络(PolicalColectness)” , 它试图观察棋盘的布局以找到最佳的下一步 。事实上 , 每个合法的下一步都在预测最佳概率 , 所以首先推测的是该概率最高 。这可以理解为“落子选择器” 。
第二个大脑:局面评估器(PositionEvaluator) ) 。
阿尔法围棋(阿尔法go)的第二大脑对落子选择器回答另一个问题 。不是推测具体的下一步棋 , 而是预测所有棋手获胜的可能性 , 如果棋子的位置被给定 。这个“棋局评价器”是“价值网络” , 通过整体的棋局判断来辅助落子选择器 。这个判断是粗略的 , 但有助于提高阅读速度 。通过对潜在未来局面的“好”和“坏”进行分类 , 阿尔法go可以决定是否用特殊变种进行深度阅读 。如果局面评估器说这个特殊变种不行 , AI会跳过这条线上更多的落子 。
2015年10月 , 阿尔法围棋以5:0完胜欧洲围棋冠军专业二段选手樊麿 。2016年3月 , 他将挑战世界围棋冠军、职业九段选手李世石 。根据日程安排 , 5局将分别在3月9日、10日、12日、13日、15日举行 , 即使一方先取得3胜也将满5局 。最后以4:1结束了这场“战争” 。
2016年3月27日 , 阿尔法go确认将挑战《星际争霸2》 。从2016年12月29日晚开始 , 被注册为“大师”、标记为韩国9段的“网络棋手”相继“踢馆”游戏城网和野狐网 。2016年12月29日晚至2017年1月4日晚 , 主场与人类顶级高手战绩为60胜0负 。在最后一盘之前 , 大师透露“他”是阿尔法围棋(阿尔法go) 。
2017年5月23日-27日 , 柯洁与围棋人工智能AlphaGo在“中国乌镇围棋峰会”上对战 。3局游戏分别在5月23日、25日、27日进行 。
未来 , 阿尔法go将与医疗、机器人等合作 , 提供更好的服务 。
以上就是关于《前世今生 , 带你了解AlphaGo的发展历程》的答疑相关内容 , 希望能够解决大家的疑惑 , 今天就介绍到这里了 , 如有更多疑问 , 请移步至百科答疑 。


    推荐阅读