OpenAI科学家Jason Wei专访：思维链灵感来源于冥想( 三 ) _OpenAI

A：最幸运的时刻还是加入谷歌AI Residency项目，这个项目的接收率大概是1%，帮助我直接进入工业界。这是一个为期 12 个月的研究项目，参与者不必拥有博士学位，但你可以作为研究人员进行研究。如果在这个项目中表现出色，就可以留在谷歌担任长期研究员。
思维链CoT，来源于深度冥想，让模型模仿人类的思维流动
Q：在 google Brain 工作感觉如何，比如思维链的项目，是什么给了你灵感？
A：在 2022 年之前，在 Google Brain 工作被认为是最好的工作之一，当然现在仍然如此。在谷歌，你有很多自由和资源可以做任何你想做的事情。这相当理想。而且也可以发表很多论文，都会署名，也附带很多荣誉。我在的时期有点像AI研究的黄金时代，我非常爱谷歌。
Q：关于思维链（Chain of Thought），你给出的关键词是冥想。能详细说明一下吗？
A：对，我对冥想很感兴趣。冥想的作用是观测到你头脑中出现的所有想法，我称之为思想流（stream of thought），基本上就是连续不断流动的思想，为此我写了一篇评论文章Artificial stream of thought has non-trivial connections to consciousness（https://jasonwei20.github.io/files/artificial_stream_of_thought.pdf），但当时没有受到多少关注，因为没有实验来证明。
很多观点文章都认为，语言模型可以有思想流，也暗示着意识的存在。我想到可以参考人类如何解决数学问题的过程，在给出问题的答案之前，人类有一个内在的思考流程，于是我从数学问题出发，尝试改变prompt，发现了语言模型也可以具有内在推理能力（要求模型在回答之前进行一系列思考过程，也就是思维链）。起初效果并不好，和模型大小有关，后来更加强大的PalM出现了，模型越大CoT可以做得更好。
后来我将这种思维链的技巧嫁接在解决其他类型的问题上，也表现得很好。技术上被称为思维链的原因是，思想流更像是杂乱无章地，随机在头脑中涌现的任何东西。而思维链则是一个更有逻辑或组织性质的思维过程。

文章插图
Q：这种冥想的灵感是否和宗教有关？
A：不，我不信教，但我受到了Sam Harris所写的《Waking up— A Guide to Spirituality Without Religion》一书的启发。这就是我的灵感来源。
（编者注：《Waking up》一书作者为美国无神论者、公共知识分子、脑神经科学家Sam Harris，这本书是写给美国人口百分之二十的”spiritual but not religious”，即相信灵性的存在，但是没有宗教信仰的人。该书强调如何通过冥想消除人类对于自我的幻象，试图用脑科学研究、思想实验来证明：1）人的思维有更高维度的存在，我们认为的自我、喜怒哀乐其实都是虚幻的，基本就是佛教的世界观 2）人可以籍由冥想练习来达到空性的体验）

文章插图
《觉醒：通往灵性的非宗教指南》，Sam Harris著，阅读链接：https://www.amazon.com/Waking-Up-Spirituality-Without-Religion/dp/1451636024
Q：在谷歌，你也领导了finetuning（微调）项目，这项工作面临哪些挑战？
A：对当时我们参与了FLAN项目，那时我们还不知道如何对语言模型做微调，所以很难防止过拟合。我和团队不得不做的一件事就是为这些模型手动编写数百条不同的指令，以防止模型过拟合。其次，要弄清楚实验设计并正确进行实验，当时微调的运算量很大。因此我们必须做出规划，运行消融实验等。同时也考虑设计实验，来评估零样本任务。我们率先在 Google 内部尝试微调大语言模型以遵循指令。
Q：所以你们团队是指令微调的先驱？
A：OpenAI在我们之前就做过一些指令微调的工作，但他们没有发表相关论文。所以我们应该算是第一个在正式论文中提出指令微调（instruction tuning，原文链接：https://openreview.net/forum?id=gEZrGCozdqR）这个术语的团队。
Q：平时是如何组织团队，与最聪明的人一起开展项目的？
A：当你与真正优秀的合作者一起工作时，他们通常有非常高的标准。你需要不断强迫自己专注在重要的工作上，并拥有雄心勃勃的梦想。和他们一起工作时，每当你展示一个成果，他们都会不断地问，有什么方法可以做得比这个结果更好吗？他们通常会不断地push你做得更好。比如我的同事Quoc V. Le就经常对我说，如果你能用小10倍的模型来实现这个功能，那就太好了，这确实是一件很难实现的事情。
Q：你也写了很多关于涌现的文章，模型最让你兴奋的涌现能力是什么？