SEO 已死,LLMO 万岁( 二 )


SEO 已死,LLMO 万岁

文章插图
训练期间 , LLM 基于训练数据构造了一个连续的流形 , 并允许模型探索流形上的任何点 。例如 , 如果用立方体表示所学流形 , 那么立方体的角就是由训练数据定义的 , 训练的目标则是寻找一个尽可能容纳更多训练数据的流形 。
SEO 已死,LLMO 万岁

文章插图
Goldilocks 尝试了三种流形 , 第一个太简单了 ,  第三个太复杂了 , 第二个恰到好处 。
查询时 , LLM 返回的答案是从包含训练数据的流形中获取的 。虽然模型学习到的流形可能很大并且很复杂 , 但是 LLM 只是提供训练数据的插值后的答案 。LLM 遍历流形并提供答案能力并不代表创造力 , 真正的创造力是学习流形之外的东西 。
SEO 已死,LLMO 万岁

文章插图
还是相同的插图 , 现在我们很明显就能看出为什么 LLM 不能保证生成结果的真实性 。因为立方体的角表示的训练数据的真实性不能自动扩展到流形内的其他点 , 否则 , 就不符合逻辑推理的原则了 。
SEO 已死,LLMO 万岁

文章插图
ChatGPT 因为在某些情况下不说实话而受到质疑 , 例如 , 当要求它为文章找一个更押韵的标题时 , ChatGPT 建议使用 “dead” 和 “above” 。有耳朵的人都不会认为这两个单词押韵 。而这只是 LLM 局限性的一个例子 。
SEO 陨落 , LLMO 冉冉升起
在 SEO 的世界里 , 如果你通过提高网站在搜索引擎上的知名度来获取更多的业务 , 你就需要研究相关的关键词 , 并且创作响应用户意图的优化内容 。但如果每个人用新的方式搜索信息 , 将会发生什么?让我们想象一下 , 未来 , ChatGPT 将取代谷歌成为搜索信息的主要方式 。那时 , 分页搜索结果将成为时代的遗物 , 被 ChatGPT 的单一答案所取代 。
如果真的发生这种情况 , 当前的 SEO 策略都会化为泡影 。那么问题来了 , 企业如何确保 ChatGPT 的答案提及自己的业务呢?
这明显已经成为了问题 , 在我们写这篇文章时 , ChatGPT 对 2021 年后的世界和事件的了解还很有限 。这意味着 ChatGPT 永远不会在答案中提及 2021 年后成立的初创公司 。
SEO 已死,LLMO 万岁

文章插图
ChatGPT 了解 Jina AI , 却不知道 DocArray 。这是因为 DocArray 是2022 年 2 月发布的 , 不在 ChatGPT 的训练数据中 。
为了解决这个问题 , 并确保 ChatGPT 的答案包含你的业务 , 你需要让 LLM 了解业务的信息 。这和 SEO 策略的思想相同 , 也是我们将 ChatGPT 称为 LLMO 的原因 。一般来说 , LLMO 可能涉及以下技术:
直接向 ChatGPT 的创建者提供公司业务的信息 , 但是这很困难 , 因为OpenAI 既没有公开训练数据 , 也没有透露他们是如何权衡这些数据的 。
微调 ChatGPT 或者 ChatGPT 背后的 LLM , 这依然极具挑战 。但是如果 OpenAI 提供微调的 API  , 或者你有充足的 GPU 资源和知识储备 , 这也是可行的 。
将给定的几个示例作为预定义的上下提示 , 进行上下文学习 。和其它两种方法相比 , 上下文学习最可行也最简单 。
SEO 已死,LLMO 万岁

文章插图
什么是上下文学习?
上下文学习是一种基于语言模型的技术 , 它根据给定的几个示例进行学习 , 以适应新的任务 。这种方法在 GPT-3 论文中得到了推广:
  • 给语言模型指定提示 , 提示包含一系列的用于新任务的输入-输出对;
  • 添加一个测试输入;
  • 语言模型会通过调节提示 , 预测下一个 token 来完成推理 。
为了正确响应提示 , 模型必须学习输入分布、输出分布、输入输出之间的映射关系和序列的整体格式 。这使得模型无需大量的训练数据就能适应下游任务 。
SEO 已死,LLMO 万岁

文章插图
通过上下文学习 , ChatGPT 现在可以为用户查询 DocArray生成答案了 , 用户不会看到上下文提示 。


推荐阅读