传统搜索的危机或是新时代的开始( 二 ) _搜索

从OpenAI博客的相关文档中，可以了解到ChatGPT实现的主要步骤和方法。第一步，是在人工监督的情况下利用一系列样本问答对GPT模型进行微调训练（SFT，Supervised Fine-Tuning）。第二步，通过强化学习训练一个奖励模型（Reward Model），主要方法是，首先由第一步中训练的模型生成多个答案，再由人工对答案进行优先级排序，效果好的得分高，反之得分低。第三步，前面步骤中有监督训练出的PPO初始模型接受各种输入后生成相应答案，再由奖励模型对生成的答案进行判别，并将结果返回到PPO中继续优化，周而复始。PPO和奖励模型在这个过程中不断优化升级，最终就是我们现在所见到的ChatGPT了。

文章插图
图7 微软与OpenAI联手

文章插图
图8 微软除资金外在云计算等软硬件技术上也对OpenAI提供大力支持
当然，ChatGPT的技术并不是最新的，让谷歌头痛的或许还有另外一个原因——OpenAI背后的金主，谷歌的老对手微软。
微软和OpenAI从2019年开始建立了牢固的合作伙伴关系。微软向OpenAI投资了10亿美元，以支持具有广泛经济效益的通用人工智能（AGI）的发展。此外，微软已经成为OpenAI的独家云提供商，两家公司进一步合作，扩展了微软Azure在大规模AI系统中的能力。这些对谷歌的发展来说，都是很大的威胁。
传统搜索进退两难
ChatGPT并没有多么神秘，许多公司都在发展自己的大型语言模型，比如谷歌自己就有LaMDA 。LaMDA（Language Model for Dialogue Applications）是谷歌于2021年发布的一款专门用于对话的语言模型。相信不少人还记得不久前的一条新闻：谷歌的一名计算机工程师在和LaMDA对话后，认定LaMDA已经具备人类意识，立即将此事上报，不料谷歌高层对此事不予理睬，于是他便将自己与LaMDA的对话内容公布到网络上，一时引起轰动。后来谷歌以违反保密规定为由将该工程师解雇。一些计算机专家认为，今天的技术还不足以让机器人达到有意识的地步，所谓“LaMDA觉醒”事件就是一场闹剧。

文章插图
图9 从根本上改变搜索和交谈方式的LaMDA
图10 LaMDA根据输入生成多个候选者，根据分数范围选择最佳候选项
这一事件从侧面说明，LaMDA的语言仿真能力有可能更胜ChatGPT一筹。LaMDA采用无监督学习方法，不需要任何标记的数据集或关于对话主题的先验知识，即可在互动中快速生成响应。LaMDA的一个关键特征是，它不但能够处理单个会话中的多个回合，还会保留不同会话之间的长期上下文记忆，从而能够和用户进行更长、更逼真的对话，这也是它强过ChatGPT的一个方面。
明明自身有着超强的能力，却让ChatGPT大出风头，这或许就是谷歌员工不甘心之处。
谷歌的高层到底在怕什么？
按谷歌高层的说法，传统搜索具有明确的数据来源，而AI生成的内容则是不确定的，甚至还会出现带有偏见或误导性的信息，这会对谷歌的品牌产生负面影响。关于这一点，OpenAI自己也表示承认，这在ChatGPT首页中就有明确说明——“可能偶尔产生不正确的信息”，“可能偶尔产生有害的指示或有偏见的内容”，“有限的世界知识，无法了解2021年后的世界” 。

文章插图
图11 ChatGPT首页
不过真正令谷歌紧张的恐怕不只是技术，还有很重要的商业原因。谷歌的主要营收来自搜索业务，这一业务通过广告和电子商务销售赚钱。而聊天机器人的宗旨是以自然语言的方式直接给出答案，很难在其中集成广告，这无疑扼杀了谷歌的主要赚钱机器。另外，通过清理大量数据池来提供可信答案所需的处理，有着极高的成本，像谷歌这种体量的公司，这些因素也不得不考虑。
总之，诸多原因，使得这个昔日的革新者徒有各种技术却只能裹足不前。这也是各传统搜索引擎面临的困境。
传统搜索和AI搜索的比较
无论谷歌是否愿意，终究阻挡不了技术的发展。虽然现在还不能断言生成式AI搜索引擎必是未来搜索的主流，但它至少会占有极为重要的一席之地。许多网站或明或暗的已经在朝这个方向发展。下面我们就来测试一下，搜索同样的问题，传统搜索和生成式AI搜索会有什么样的结果。
一般生活常识的搜索