|预训练语言模型:还能走多远?( 七 )


这一点 , 也可以从GPT-3的表现上看到 , 有很多问题它会乱答 。 我觉得它之所以会乱答 , 是因为它没有从这么大规模的数据里面学会所谓的抽象思考 。
我本身是做知识图谱的 , 我觉得未来自然语言深度理解的发展应该要有知识的支持 , 但可能有的老师会觉得 , 其实这些知识也可以从大规模数据里面去学 。 当然这样这是没问题的 , 不过在我看来 , 即使要学 , 也应该有一些更高层的meta knowledge来支持你去学这些底层的知识 , 然后一层一层地去往上学 , 这是我觉得未来可能比较重要的一个探索方向 。
也就是说“大力出奇迹”或者纯粹“data-driven”的方法 , 虽然在这几十年已经验证是一个非常有效的方式 , 不过单纯地把模型规模变大应该不是终极路线 。
提问者:如何让预训练模型除了知道哪些东西是常识 , 是应当知道的 , 还有哪一些东西是自己没有学到的 , 不能瞎猜的?
尚利峰:我认为通用AI的发展还有很长的一段路要走 。 一个很重要的问题是我们下一步该怎么走?
因为知识如此多样而稀疏 , 而很多时候业务逻辑等是各个公司或者应用场景的硬性规定 , 没有办法进行统计分析 , 这种情况很难解决 。
预训练模型在语言表示上已经非常成功 , 在知识表示和推理方面 , 我们暂且不要对预训练模型过于苛求 。
至于下一步工作 , 我认为重点应该放在如何更好地进行知识获取方面 。 其实这也是工业界非常关注的一个问题 。 例如百度或者谷歌的搜索引擎 , 可以返回可能包含答案的相关段落 , 并且高亮可能的答案 , 帮助用户更加便捷地获取信息 。
除此之外 , 我认为阅读理解是非常重要的研究方向 。 一个有趣的问题是在预训练阶段我们如何去设计一些任务 , 使得语言模型有动力去学习各种长依赖关系来得到答案 。
提问者:如何让预训练语言模型在经过一段时间的训练之后更好地发现各种业务信息之间的不相似性?
尚利峰:问题很好 , 这也是我们在工业界经常遇到的两个问题 。 具体就是说如何让模型知道它自己不知道 。 这实际上是一种边界的问题 。
预训练模型无法做到包治百病 , 因为有很多领域的东西不具有可统计的特性 。 真实的系统还是需要写不少的规则 。 我们目前的想法就是去将神经的东西和符号的东西进行融合 。 目前只是在进行初步的尝试 。 大家也可以多进行这方面的研究 。
刘知远:我稍微也发表一点感想 , 首先是领域与领域之间的差别特别大 。 比如有些领域很小 , 你随便弄点数据就能解决这个问题;而有些领域很大 , 你多少数据都不够去解决问题 。 举一个我原来做统计机器翻译的一个例子 , 中医领域可能十万句对就能基本解决所有问题 , 但你真正要说医学领域那就不得了了 , 医学领域无边无际 , 所以我认为是跟领域的大小非常相关 。
再一个就是规则 , 现在神经网络虽然非常强大 , 但是规则这个东西还是离不开工业界 , 比如前些年我们国家的一个高考机器人项目 , 结果最后他们开发出来的系统 , 基本上还是个规则系统 。 所以说真正在解决问题的时候 , 还是得各种方法一起上 , 神经网络并不能包治百病 。
提问者:由于我们对大脑研究的水平有限 , 人类也不知自己是怎么在进行决策和推理 。 但我们知道它是数以千亿计的神经元的一个堆叠 。 我的问题是有没有可能等神经网络大到一定程度的时候会发生质变?
孙宇:这个问题比较大 , 我个人觉得应该是不太可能的 。 因为我们都不太明白人脑是如何去思考的 , 只是觉得有很多的神经元 , 而且比我们现在所有模型的神经元都多 。
其实关于认知 , 我觉得还是得让生物学界加入进来去一起研究一下 。 而现在计算机科学基于一种统计的方法 , 基于深度学习的方法 , 本质上还是一种数学 。
我觉得现有的神经网络模型 , 还是去解决某一些他能够学到的那些任务 , 而它能够学到的无非是语言的贡献 。


推荐阅读