[]下围棋so easy ,AlphaZero开始玩量子计算!( 二 )
神经网络输出一个值 , 该值是对最终仿真逼真度v≈F和一些移动概率p=(p1, p2, ...)的估计 。 两者都在蒙特卡洛树搜索中使用 。 树由节点(状态)和边(状态-动作对)组成 。 树搜索从根节点开始 , 并通过在每个步骤中选择动作来贯穿树 。 选择哪种行动 , 是通过比较每一个边缘的内在属性 , 以平衡勘探和开发的方式进行的 。 一旦探索到了边缘 , 其内在属性将根据搜索结果进行更新 。
树中的正向搜索将继续 , 直到遇到一个以前未访问过的节点 , 然后将该节点添加到树中 , 并使用p初始化其边缘 。 搜索中的所有访问过的边都将使用v在反向过程中更新 。 一旦执行了多次此类搜索 , AlphaZero将确定一个操作并更新根节点 , 而丢弃树的其余部分 。 最后 , 基于树搜索产生的数据对神经网络进行更新 , 使得v接近保真度 , 并且移动概率增加了选择更有希望动作的机会 。
简言之:蒙特卡洛树搜索允许AlphaZero向前看几步 , 从而可以在解决方案空间中进行更全面的搜索 。 这使得AlphaZero在长期策略至关重要的复杂任务中比大多数其他强化学习方法更具优势 。
成功实现AlphaZero之后 , 我们使用相同的算法超参数将其用于三个不同的量子控制问题 。 对于每个问题 , 我们将AlphaZero与更常规的算法进行了比较 。 例如 , 在图2中 , 我们比较了AlphaZero和遗传算法在50小时运行期间创建二进制脉冲的任务 。 在y轴上 , 我们绘制infidelity 1-F , 这实际上是错误率(即越低越好) 。 最初 , AlphaZero在学习量子力学关联时表现不如遗传算法 , 但是这个学习阶段相当短 。 在30小时内 , 我们发现AlphaZero的性能比遗传算法提高了一个数量级 , 并且具有大量独特的高保真脉冲序列 。
本文插图
图2.遗传算法和AlphaZero在50小时运行期间的比较 。 在y轴上绘制了infidelity (1-F) , 这实际上是一个错误率
混合了AlphaZero的量子计算 , 搜索速度提升500倍
AlphaZero会输给物理学家在过去15年不断完善的高度量子化的优化算法并不奇怪 。 但是 , 如果AlphaZero死在这里 , 会留下很多遗憾 。
由于梯度优化算法没有学习功能 , 意味着训练过程中其性能没有逐步提高 , 并且所有生成的数据都将被丢弃 , 而不是用于后续学习 。
奥胡斯大学的团队开始寻求一种混合算法:AlphaZero通过广泛的探索生成了高可用的种子对象 , 随后通过基于梯度的方法对它们进行优化 , 这种方法使解决方案的数量和质量都得到了极大的提高 。
实际上 , AlphaZero和梯度优化解决了不同的问题:AlphaZero能学习到解决方案的基础结构 , 梯度优化在种子解决方案周围的局部空间中进行优化 。 如果仅使用梯度优化 , 经过50小时的模拟 , 我们可能有两个或三个有前途的解决方案 , 但通过我们的混合算法 , 可以获得一千个 。
将功能强大的通用领域机器学习方法与人类专业知识、特定领域的蛮力计算相结合的结果令人振奋 。 国际象棋已经迈出了第一步 , 混合型人机团队将专家知识和Stockfish引擎结合起来 , 可以同时胜过人类和算法 。
最近Gary Marcus和Ernest David在他们的新书《重新启动AI:构建我们可以信赖的人工智能》中提出 , 将领域特定方法和领域通用方法与分层的受人类启发的决策过程相结合 , 是未来构建强大的AI方法的核心元素之一 。 这可能会解决AlphaZero方法最直接的弊端之一:超参数很多 , 但仅在有限的范围内有用 。
在一些案例中 , 相同的超参数集在三种量子情况下均能很好地工作 , 当改变问题的设定 , AlphaZero将无法解决 。
量子计算机利用量子并行性大幅提高了计速度 , 但是问题再次出现:搜索空间的控制参数成指数级增长 。 AlphaZero实验证明 , 神经网络提供的近似和不完善的解决方案可以充当本地蛮力启发式算法的强大种子生成器 。