我们和OpenAI联创聊了聊GPT的当下局限:两年后可能就没了( 二 )


但是,你有这个游戏和这个研究,以及一种简单的方法来确定一个位置是否比另一个位置更好 。它确实感觉不可能适用于现实世界,因为没有学习 。学习是一个巨大的谜团 。我对学习非常感兴趣 。出于我的大运气,Geoff Hinton是大学的教授,我们几乎马上就开始合作了 。
那么智能是如何工作的呢?我们如何让计算机变得更加智能?我有一个非常明确的意图,就是为人工智能做出非常小但真正的贡献 。人工智能在当时是一个令人绝望的领域 。所以,我的动机就是,我能否理解人工智能是如何工作的?还有能否为之做出贡献?这就是我的最初动机 。这几乎是20年前的事了 。
CRAIG:然后是AlexNet,我们和Geoff Hinton教授谈过了,他说,正是你对卷积神经网络的突破感到兴奋,才让你申请了ImageNet比赛,Alex具备了训练网络的编码技能 。
ILYA:简言之,我意识到,如果你在一个很大的数据集上训练一个大的神经网络——对不起,很大,而且很深,因为当时深层部分还是新的——如果你在足够大的数据集中训练一个很大和很深的神经网络,它指定了人们要做的一些复杂任务,比如视觉,只要训练神经网络,你就一定会成功 。它的逻辑是非常不可简化的,我们知道人脑可以解决这些任务,并且可以快速解决 。而人类的大脑只是一个由慢速神经元组成的神经网络 。
所以,我们知道一些神经网络可以做得很好 。因此,我们只需要采用一个较小但相关的神经网络,并在数据上对其进行训练 。计算机内部最好的神经网络将与我们执行这项任务的神经网络有关 。
所以,有一种观点认为,神经网络,大型和深度神经网络可以解决这项任务 。此外,我们有训练它的工具 。这是杰夫实验室技术工作的结果 。所以,你把两者结合起来,我们可以训练这些神经网络 。它需要足够大,这样如果你训练它,它就会很好地工作,而且你需要数据,它可以指定解决方案 。有了ImageNet,所有的成分都在那里 。Alex有这些非常快的卷积核 。ImageNet有足够大的数据,有一个真正的机会做一些前所未有的事情,而且它完全成功了 。
CRAIG:是的 。这就是监督学习和卷积神经网络 。2017年,《注意力就是你所需要的一切》论文发表,介绍了自我注意力和transformers大模型 。那么GPT项目是从什么时候开始的?有没有关于大模型的直觉?
ILYA:是的 。
ILYA:从OpenAI成立之初起,我们就在探索一个想法,即预测下一个东西就是你所需的一切 。我们用当时更受限制的神经网络探索这个想法,但我们希望,如果你有一个神经网络可以预测下一个单词,它将解决无监督学习 。所以,在GPT之前,无监督学习被认为是机器学习的圣杯 。
现在它已经被完全解决,甚至没有人谈论它,但它曾是一个神秘的问题,因此我们在探索这个想法 。我非常兴奋,因为预测下一个单词足够好,将为你提供无监督学习 。
但我们的神经网络无法胜任此任务 。我们使用的是递归神经网络 。当transformers出现时,就在论文发表的第二天,我们立即意识到,transformers解决了递归神经网络的局限性,解决了学习长期依赖关系的问题 。
这是一个技术问题,我们立即转向transformers 。因此,nascent的GPT项目便开始使用transformer 。它开始工作得更好,你让它变得更大,然后你继续让它变得更大 。
这就产生了最终的GPT-3,成就了基本上是我们今天所处的位置 。
CRAIG:我对它很感兴趣,但我也想了解大型语言模型或大型模型的问题或缺点 。目前存在的大型语言模型的限制在于它们的知识被包含在它们训练的语言中 。而大部分人类知识,我认为每个人都会同意,是非语言的 。
它们的目标是满足提示的统计一致性 。它们没有关于语言所关联的现实的基本理解 。我询问了ChatGPT关于自己的信息 。它认识到我是一名采访人员,曾在各种报纸工作,但它继续讲述了我从未获得过的奖项 。它读起来非常流畅,但其中很少与底层现实相连 。在你们未来的研究中,是否有措施来解决这个问题?
ILYA:所以,在我对你提出的问题发表直接评论之前,我想对相关一些更早期问题发表评论 。
CRAIG:当然 。
ILYA:我认为很难谈论极限或局限性,甚至像语言模型这样的东西 。因为两年前,人们自信地谈论自己的局限性,现在他们完全不同了,对吧?因此,重要的是要牢记这一历史过程 。我们有多大信心相信,我们今天看到的这些限制在两年后仍将存在?我没有那么大信心,可能两年后就不存在了 。


推荐阅读