LLM 大型语言模型技术精要，不看亏了 _LLM

今天分享一篇知乎高赞文章，作者是张俊林老师。

文章插图
图片
读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min 。
ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型（LLM）的效果如此出色，而有人则意识到我们对LLM的认知和发展理念距离世界先进水平还有很大差距。我是既惊喜又醒悟的一员，也是典型的中国人，善于自我反思。因此，我开始反思，并将这篇文章作为反思的结果。
我认为，AI target=_blank class=infotextkey>OpenAI在LLM的理念和相关技术方面领先于国外的google和DeepMind大约半年到一年的时间，领先国内大约两年左右。在LLM这个问题上，梯队很明显，Google应该排在第二位，最能体现Google技术眼光的是PaLM和Pathways，推出时间大约在2022年2月到4月之间。同一时期， OpenAI推出的是InstructGPT，从这里可以看出Google和OpenAI的差距。至于为什么这么说，你看了后面的内容就能理解。DeepMind之前的重点一直在强化学习攻克游戏和AI for science等方面，对LLM的关注比较晚，大约是在2021年才开始重视这个方向，目前仍在追赶状态。Meta在LLM上的关注更少，重点一直不在LLM上，目前也在努力追赶。这些机构是目前做得最好的，即便如此，国内的差距也是可以理解的。至于OpenAI关于LLM的理念是什么，我会在本文的最后一部分谈谈我的认知。
本文试图回答一些问题：ChatGPT是否带来了NLP乃至AI领域的研究范式转换？如果是，那会带来怎样的影响？LLM从海量数据中学到了什么知识？LLM又是如何存取这些知识的？随着LLM规模逐步增大，会带来什么影响？什么是In Context Learning？为什么它是一项很神秘的技术？它和Instruct又是什么关系？LLM具备推理能力吗？思维链CoT又是怎么做的？等等。通过阅读本文，您将对这些问题有一个答案。
在谈到LLM技术现状之前，我先宏观地谈一下我心目中的研究范式转换问题，这样我们才能更清晰地理解具体技术的变化。
如果我们回顾NLP领域的技术发展，可能会发现两次大的研究范式转换。第一次转换是从深度学习到两阶段预训练模型，时间跨度大约是2013年至2020年。在Bert和GPT模型出现之前，NLP领域主要依赖于深度学习模型，其中核心技术是改进的LSTM和CNN模型以及Sequence to Sequence+Attention的总体技术框架。然而，深度学习在NLP领域的应用并没有取得很大的成功，主要原因是数据量的限制和特征抽取器的表达能力不够强。Bert和GPT模型的出现改变了这一现状，引领了NLP领域的技术转变。这种转变带来了两个影响：一是中间任务的消亡，二是不同研究方向技术路线的统一。
第二次转换是从预训练模型走向通用人工智能（AGI），时间跨度大约是2020年至今。ChatGPT是这次转换的关键节点，它实现了理想LLM模型的接口层，让LLM适应人类的习惯命令表达方式。这对于提高LLM的易用性和用户体验至关重要。这次转换将进一步推动LLM模型的发展，纳入更多的研究领域，逐步实现通用人工智能。
在这个背景下，很多NLP子领域将不再具备独立研究的价值，因为LLM模型可以通过吸收更多的领域知识来解决这些问题。同时，更多NLP之外的研究领域也将被纳入LLM技术体系，成为通用人工智能的一部分。图像处理和多模态任务是其中的一个自然选择。
总的来说，LLM模型的发展趋势是追求规模越来越大的模型，通过增加预训练数据的多样性来涵盖更多的领域知识。人机接口技术也将继续改进，让LLM更好地适应人类的表达方式。这些技术转变将对NLP领域和其他研究领域产生深远影响。
接下来，我们来梳理下GPT 3.0之后LLM模型的主流技术进展。
Transformer是一种强大的特征抽取器，通过预训练过程，它可以学习到丰富的知识。这些知识可以分为语言类知识和世界知识两大类。
语言类知识包括词法、词性、句法、语义等与自然语言理解相关的知识。研究表明，Transformer可以学习各种层次的语言学知识，并且这些知识在模型的不同层次中有所分布。浅层的语言知识如词法、词性、句法等存储在低层和中层，而抽象的语言知识如语义类知识则广泛分布在中层和高层。
世界知识指的是关于真实事件和常识性知识的知识。研究表明， Transformer可以从训练数据中吸收大量的世界知识，并且这些知识主要分布在中层和高层，尤其集中在中层。随着模型层数的增加，LLM可以学习到更多的世界知识。因此，可以将LLM看作是一种以模型参数体现的隐式知识图谱。

LLM 大型语言模型技术精要，不看亏了

推荐阅读

无名渔夫|2020年有什么副业能够稳定月入千元？分析赚钱的方法

Filecoin分叉币FileStar预计10月30号上线

民调：过半俄罗斯人希望2024年后普京再连任总统

舟谊会展 Resilience，泰国曼谷工业自动化机器人展览会Maintenance

环球网|日本选定三菱重工为下一代战机主承包商 预计本世纪30年代首飞

疫情|华菱钢铁：预计2020年半年度净利润盈利29.3亿~31.3亿元

cdr应该咋的才可以填充

央视网|服贸会探馆丨一起“康康”专题展里的冬季运动“大礼包”

新消费内参|如何撼动“维秘”巨头地位，实现7.5亿美元市场估值，ThirdLove:

底牌|中国不再低调，主动亮出自己的“底牌”，俄：十分震撼！

雷电|注意 | 济南发布强对流天气来袭和雷电黄色预警信号

《声生不息3》：周深的尴尬，揭开了娱乐圈的三大现实面

关晓彤说自己是在逃格格|5G冲浪少年！关晓彤说自己是在逃格格，秒变新晋接梗王

[王瑶]裁决了！特朗普政府违法

铁锅除铁锈的方法

『火星』火星上也有沙尘暴？科学家：每10年爆发一次，连太阳都会被遮住

春节给孩子的祝福语大全！妈妈对宝贝新年寄语

中金网 Chain生态发起人AlanShaw出席欧盟区块链生态论坛，AWS

城市大看|2020怎么穿出时髦感？泫雅示范最新潮流！大秀细腰美腿打造好身材

台风“白鹿”在福建东山沿海登陆暂未接到人员伤亡报告