内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?( 二 )


但仍然挡不住网友天马行空的猜想和阴谋论 。
一位Reddit网友说,对于AI界而言,Q*的出现可能就像是 , 一个人想敲石头生火,敲了几年都没什么成果,结果上礼拜石头突然敲出火星了 。

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

文章插图
另一位Reddit网友已经开始想象AGI诞生之后的场景了:
AI开始发明东西,破解互联网上的一切加密,写出以人类的数学能力理解不了的程序...

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

文章插图
不过 , 理性地想,AGI的诞生大概率不会这么快 。Q*可能只是人类以后漫长探索征程的开始 。
根据天风证券分析师孔蓉的观察,OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力 。
OpenAI近期持续引入强化学习和决策算法研究人员 。23年7月份新引进的研究员Noam Brown , 开展多步推理和多智能体互动方面的研究 。
Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI 。
OpenAI 近期于 5 月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力 。OpenAI 引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性 。
据孔融推测 , 强化学习与决策算法进步或带来Q*大模型能力突破,GPT4 + 强化学习和决策算法,或能实现更强的AI Agent能力 。




推荐阅读