关于ChatGPT,黄仁勋和OpenAI联合创始人进行了一场“炉边谈话( 三 )


我们在几天之前看到了GPT-4的表现,它在很多领域的表现非常让人震惊,它能够通过SAT考试、律师协会的律师执业资格考试,而且能够达到很高的人类水平 。我想问的就是,GPT-4有什么样的改善?并且你认为接下来它会帮助人们在哪些方面、领域有更多的改善?
伊尔亚-苏茨克维:GPT-4基于过去ChatGPT的性能,做了很多改善 。我们对GPT-4的训练大概是从6-8个月之前开始的,GPT -4和之前版本GPT最重要的区别,就是GPT-4是基于更精确的精准度去预测下一个单词的,因为有更好的神经网络帮助预测 。
比如说你自己在读一篇推理小说,小说中有各种不同的人物和情节,有密室、有谜团,你在读推理小说的过程中完全不清楚接下来会发生什么 。通过小说不同的人物和情节,你预测凶手有几种可能性,GPT-4所做的内容就像一本推理小说一样 。
黄仁勋:很多人都会说深度学习会带来推理,但是深度学习并不会带来学习 。语言模型是如何学习到推理和逻辑的?有一些任务,ChatGPT和GPT-3不够擅长,而GPT-4更擅长 。GPT-4现在还有什么样缺陷,可以在接下来的版本上更进一巩固吗?
伊尔亚-苏茨克维:现在的ChatGPT可以更精准地的定义逻辑和推理,通过更好的逻辑和推理在接下来的解密的过程中获得更好的答案 。神经网络或许会面临一些挑战,比如让神经网络去打破固有的思维模式,这就意味着我们要思考神经网络到底可以走多远,简而言之,神经网络的潜力有多大 。
我们认为GPT的推理确实还没有达到我们之前预期的水平,如果我们更进一步扩大数据库,保持过去的商业运转模型,它的推理的能力会进一步提高,我对这个比较有信心 。
黄仁勋:还有一点特别有意思,就是你去问ChatGPT一个问题,它会基于过去的知识和经验告诉你这个问题的答案,这个也是基于它对过去知识和数据库的总结,以及基于对你的了解提供的答案,并且展现一定的逻辑性 。我觉得ChatGPT有一种自然而然的属性,它能够不断去理解 。
伊尔亚-苏茨克维:是的,神经网络确实有这些能力,但是有时候不太靠谱,这也是神经网络接下来面临的最大障碍 。在很多情况下,神经网络会比较夸张、会出很多的错误,甚至出一些人类根本做不出来的错误 。现在我们需要更多的研究来解决这些“不可靠性“ 。
现在GPT-4的模型已经被公开发布了,它其实没有追踪数据模型的能力,它的能力是基于文本去预测下一个单词,所以是有局限性的 。我觉得有些人可能会让GPT-4去找出某些数据的来源,然后会对数据来源做更深入地调查 。
总体而言,尽管GPT-4并不支持内部的数据收集,它肯定会在持续的数据深入挖掘之中变得更加精准 。GPT-4已经能够从图片中进行学习,并且根据图片和内容的输入进行反馈 。
黄仁勋:多模态学习如何加深GPT-4对于世界的理解?为什么多模态学习定义了GPT和Open AI?
伊尔亚-苏茨克维:多模态非常有意思:
第一,多模态在视觉和图像识别上特别有用 。因为整个世界是由图片形成的,人们也是视觉动物,动物也是视觉动物,人脑1/3的灰质都是用来处理图像的,GPT-4也能够去理解这些图像 。
第二,通过图片或文字对世界的理解是一样的,这也是我们的一个论证 。对于一个人而言,我们作为一个人可能一生之中只会说10亿个词 。
黄仁勋:我脑海中闪过10亿个词的画面,居然有这么多词?
伊尔亚-苏茨克维:是的,我们可以计算一下人一生的时间有多久,以及一秒能处理多少词,如果再减去这个人生命中睡觉的时间,就能算出一生处理了多少单词 。人和神经网络不同之处,就是有些过去对于文本而言的话,如果我们有一个十亿级的词汇无法理解的话,可以用万亿级的词汇来理解 。我们对于世界的知识和信息,可以通过文本慢慢渗透给AI的神经网络 。如你加上视觉图片等更多的元素,神经网络可以更精准地学习 。
黄仁勋:对于文本和图片方面的深度学习,如果我们想要人工智能智能去理解其背后的逻辑,甚至夸张的说,是理解这个世界的基本原理——比如我们人类日常一句话的表达方式,比如说有一个词其实有两种含义,声音的高低变化,其实都代表着两种不同的语气 。在说话的语言和语调方面,会不会对AI去理解文本有一定帮助呢?
伊尔亚-苏茨克维:是的,你说的这类场景非常重要 。对于语音和语调,包括声音的大小和语气,都非常重要的信息来源 。


推荐阅读