我们和OpenAI联创聊了聊GPT的当下局限:两年后可能就没了( 四 )


我想为这个观点辩护 。我认为从图像和图表中学习某些事情要容易得多,但我认为你仍然可以仅从文本中学习它们,只不过需要更长的时间 。举个例子,考虑颜色的概念 。
当然,你不能仅从文本中学习颜色的概念,但当你看一下嵌入时——我需要稍微解释一下嵌入的概念 。每个神经网络通过“嵌入”表示单词、句子和概念,这些嵌入是高维向量 。
我们可以查看这些高维向量,看看什么类似于什么,网络是如何看待这个概念或那个概念的 。因此,我们可以查看颜色的嵌入,它知道紫色比红色更接近蓝色,知道红色比紫色更接近橙色 。它只是通过文本就知道这些东西 。这是如何做到的呢?
如果你有视觉,颜色之间的差异就会立刻显现出来 。你会立即感知它们 。而对于文本,你需要更长的时间,也许你知道如何说话,已经理解了语法、单词和语法,只有在以后才会真正理解颜色 。
所以,这就是我关于多模态性必要性的观点:我认为它不是必要的,但肯定是有用的 。我认为这是一个值得追求的方向 。我只是不认为它是非此即彼的 。
因此,[LeCun]的提案声称预测具有不确定性的高维向量是一个重大挑战之一 。
但我发现令人惊讶的是,在这篇论文中未被承认的是,当前的自回归大模型已经具备了这种属性 。
我来举两个例子 。一个是,给定一本书中的一页,预测下一页 。可能会有很多可能的下一页 。这是一个非常复杂、高维的空间,但他们可以很好地处理 。同样适用于图像 。这些自回归大模型在图像上工作得非常完美 。
例如,像OpenAI一样,我们已经在iGPT上工作了 。我们只是拿了一个大模型,将其应用于像素上,它表现得非常出色,可以以非常复杂和微妙的方式生成图像 。Dall-E 1也是一样 。
因此,在我看来,论文中强调现有方法无法处理预测高维分布的部分,我认为它们肯定可以 。
CRAIG:关于这个想法,即使用人类训练师的队伍来与ChatGPT或大型语言模型一起进行强化学习,就直觉而言,这似乎不是教授模型了解其语言底层现实的有效方法 。
ILYA:我不同意问题的措辞 。我认为我们的预训练模型已经知道了它们需要了解的关于底层现实的一切 。它们已经掌握了语言方面的知识,以及关于产生这种语言的世界进程的大量知识 。
大型生成模型学习它们的数据——在这种情况下,是大型语言模型——是产生这些数据的真实世界进程的压缩表示,这意味着不仅涉及人和他们的想法、感受,还涉及人们所处的状态和彼此之间的交互作用 。一个人可能处于不同的情境中 。所有这些都是通过神经网络来表示并生成文本的压缩进程的一部分 。语言模型越好,生成模型就越好,保真度就越高,它就能更好地捕捉这个过程 。
现在,正如你所描述的那样,这些教师的确也在使用人工智能辅助 。这些教师不是独自行动的,他们正在使用我们的工具,而工具则承担了大部分的工作 。但是,你确实需要有人来监督和审核他们的行为,因为你希望最终实现非常高的可靠性 。
确实有很多动机使它变得尽可能高效和精确,以使得最终的语言模型行为尽可能地好 。
是的,这些人类教师正在教授模型所需的行为 。他们使用人工智能系统的方式不断提高,因此他们自己的效率也在不断提高 。
这有点像是一种教育过程,如何在世界上表现良好 。
我们需要进行额外的培训,以确保模型知道幻觉永远不可行 。而这种强化学习人类教师循环或其他变体将教它 。
某种东西应该会奏效 。我们很快就会找到答案 。
CRAIG: 你现在的研究方向是什么?
ILYA: 我不能详细谈论我正在从事的具体研究,但是我可以简单地提到一些广义的研究方向 。我非常有兴趣使这些模型更加可靠、可控,让它们从教材数据中更快地学习,减少指导 。让它们不会出现幻觉 。
CRAIG: 如果你有足够的数据和足够大的模型,你能否在数据上训练模型,让其针对一些看似无法解决的冲突得出一种让每个人都满意的最佳解决方案 。你是否思考过这将如何帮助人类管理社会?
ILYA: 这是一个非常大的问题,因为这是一个更加未来的问题 。我认为我们的模型仍有许多方面将比它们现在的能力更强大 。
【我们和OpenAI联创聊了聊GPT的当下局限:两年后可能就没了】如何使用这项技术作为各种建议的来源,政府使用它的方式是不可预测的 。我认为未来可能发生的一件事是,因为你有这些神经网络,它们将会如此普及,对社会产生如此巨大的影响,我们将发现有必要让一个国家的公民向神经网络提供一些信息,关于他们想要事物的样子 。我可以想象这种情况发生 。你可以从每个公民那里获得更多的信息并将其聚合,具体说明我们想让这样的系统如何行动 。现在它打开了许多问题,但这是未来可能发生的一件事 。


推荐阅读