内部人担忧“威胁人类生存”！OpenAI的神秘重大突破“Q*算法”究竟是什么？( 二 ) _Q*算法

但仍然挡不住网友天马行空的猜想和阴谋论。
一位Reddit网友说，对于AI界而言，Q*的出现可能就像是，一个人想敲石头生火，敲了几年都没什么成果，结果上礼拜石头突然敲出火星了。

文章插图
另一位Reddit网友已经开始想象AGI诞生之后的场景了：

AI开始发明东西，破解互联网上的一切加密，写出以人类的数学能力理解不了的程序．．．

文章插图
不过，理性地想，AGI的诞生大概率不会这么快。Q*可能只是人类以后漫长探索征程的开始。
根据天风证券分析师孔蓉的观察，OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown ，开展多步推理和多智能体互动方面的研究。
Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合，大幅提升了AI在复杂策略游戏中的表现，开发出第一批在德扑无上限游戏中击败顶级玩家的AI 。

OpenAI 近期于 5 月份发布的研究也表明，调整训练方式和引入更大规模的监督数据，将会显著提升强化学习系统的数学推理能力。OpenAI 引入针对过程的强化学习监督，进一步提升大模型在数据推理与计算的准确性。
据孔融推测，强化学习与决策算法进步或带来Q*大模型能力突破，GPT4 + 强化学习和决策算法，或能实现更强的AI Agent能力。