[]下围棋so easy ,AlphaZero开始玩量子计算!
本文插图
来源:新智元
本文约3073字 , 建议阅读9分钟 。
本文介绍丹麦和德国的研究人员使用Deepmind的AlphaZero 开发了一种混合算法 , 将AlphaZero强大的搜索能力与量子计算有机结合起来 , 参数搜索速度大幅提升 。
在过去的几十年里量子物理技术的探索中 , 最引人注目的就是量子计算机 。
本文插图
量子计算机的能力 , 是所有现有的计算机组合加起来都无法匹敌 。 但到目前为止还没有人能够制造出一台功能齐全的量子计算机 。 这就需要我们在控制量子系统的能力上向前跨一步 。
为什么 AlphaZero 能快人一步“预知未来”?
AlphaZero一开始是专门用来下围棋的 。 围棋的落子位置太多了大约有种 。 相比之下 , 国际象棋只有种可能的走位 。
所以AlphaZero使用了一个深层的神经网络 , 它学会了从一个特定的位置开始评估它获胜的可能性 。 为了获胜 , AlphaZero有一个功能叫做蒙特卡洛树搜索 , 这种方法能够帮助它在游戏中“预知未来” 。
本文插图
由于在所有可能策略中抽样的可能性比较小 , 而且神经网络只能近似估计 , 所以特别是在其训练阶段 , 蒙特卡洛树搜索能够极大地提高游戏的准确性以及训练效率 。
这类似于职业棋手在下棋时能够提前想几步棋 。 训练结果是相当惊人的 , AlphaZero 很快就摧毁了专业游戏软件和人类玩家 。 例如 , 经过仅仅四个小时的自我对弈练习 , AlphaZero 就在国际象棋中击败了领先的棋类软件 Stockfish 。 而且这完全都是从零开始 , 一开始AlphaZero根本不知道游戏规则 。 丹麦国际象棋大师Peter Heine Nielsen将其比作一个访问过地球的高级外星物种 。
【[]下围棋so easy ,AlphaZero开始玩量子计算!】目前AlphaZero 已经有效地在围棋 , 国际象棋和星际争霸中战胜对手 。 AlphaZero成功的关键是将蒙特卡罗树搜索和具有前瞻性的深度神经网络结合起来 。 结果表明 , 从树下方延展出来的预测信息极大地提高了深度神经网络的精度 , 使预测结果更加准确集中 , 而非试探性的探索 。
AlphaZero后发制人:30小时性能提高一个数量级
与普通计算机类似 , 量子计算机使用门操作(gate operations)来操纵其量子位 。 我们试图通过构建分段恒定的脉冲序列来实现特定的门操作 , 即AlphaZero必须为每个时间步长(time-step)选择一个脉冲幅度 。 物理系统在每个时间步长tj上都由一个4x4复杂的矩阵U(tj)进行数学描述 , 我们将其折叠成一个长度为32的向量 。 这是神经网络的输入 , 如图1所示 。 脉冲序列完成后 , 就可以将复数矩阵U(T)映射为一个实数 , 称为仿真逼真度(fidelity)F , 该实数的取值在0到1之间 。 从本质上讲 , 仿真逼真度是一种概率度量 , 其中1表示100%成功 。
本文插图
图1.AlphaZero使用的MCTS(左)和深度神经网络(右)的图示
左图和右图分别演示了 AlphaZero 的树搜索和神经网络 。 利用树搜索中统一的搜索结果作为神经网络的输入项 。 神经网络的上限输出接近给定输入状态的现行策略 , 即 p a ~ a pa ~ a 。 同时 , 下限输出提供了一个能够预估期望最终报酬的值函数 , 即 v (s t)~(t) v (st)~ f (t) 。 在我们的工作中 , 我们发现以一致的形式向 AlphaZero 提供物理系统的完整信息 , 有利于提升它的性能 , 尽管这种方式可能比较难以调整以适应具有较大希尔伯特空间的系统 。