人工智能的80年进化编年史:从想象到现实( 四 )


5月 , Sam Altman辞去了 YC总裁的工作 , 开始担任新 OpenAI 的CEO 。
7月 , 重组后的OpenAI拿到了微软包括Azure云计算资源在内的10亿美金投资 ,  微软将作为"首选合作伙伴” , 今后可获得OpenAI 技术成果的独家授权 。
自此 , OpenAI后续技术成果不再承诺开源 。
2020年5月
OpenAI发布了GPT-3 。
GPT-3的初始版本在内部代号为"davinci" , 使用45TB文本数据训练 , 有1750亿参数 。根据公开信息 , 模型的训练费用是1200万美金 。因为太贵 , 只训练了一次 。
随后 , OpenAI发表了近70页的论文《Language Models are Few-Shot Learner》 。这篇论文阐述了大模型的各种新能力 , 而最重要的就是标题所指出的小样本(few-shot)学习能力 。
"few-shot"是一个专业术语 , 理解起来也简单 , 就是通过少量的几个例子就能学习一个新的任务 。人们发现 , GPT-3开始具有类似人类的能力 , 只要在提示里展示特定任务的几个示例 , GPT-3就能完成新示例的输出 。而无需进行针对性的额外微调训练 。这也被称之为"上下文学习"(in context learning)
2020年6月
对AI绘画有重要意义的论文 《Denoising Diffusion Probabilistic Models》发表 ,  引入了DDPM模型 。作为领域的奠基之作 , 这篇论文第一次把2015年诞生的Diffusion"扩散模型"用在了图像生成上 。
用扩散模型生成图像的过程 , 简单理解 , 就是我们熟知的图片"降噪":把一幅全部是噪点的随机图像通过AI算法反复"降噪"到最清晰 , 一个图像便生成了 。
DDPM的出现把Diffusion扩散模型带到了一个新的高度 。在不久之后 , DDPM以及后续的Diffusion扩散模型就全面取代了GAN(生成式对抗网络) , 成为了AI绘画大模型当仁不让的主流技术 。
2020年12月
由于不再认同转型后的公司文化和战略 , OpenAI的部分核心团队出走 。
12月31日 , OpenAI发布新闻稿 , 宣布其研究副总裁Dario Amodei在OpenAI工作了近五年后离开了OpenAI 。
OpenAI正是5年前成立的 , 这位研究副总看来是妥妥的创始核心 。
Dario Amodei带着一些OpenAI的早期核心员工随后创办了Anthropic , 推出了ChatGPT的直接竞品Claude 。
被ChatGPT逼急了的Google最近刚给Anthropic紧急投资了3亿美金 , 以获得其10%的股份 , 并绑定了其云计算提供商的身份 。
这里说个小知识 , 加州没有竞业协议 , 真的是创业者的天堂!
2021年1月
1月11日 , Google发表论文《Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》 , 提出了最新语言模型—Switch Transformer 。
这个 Switch Transformer 模型以高达 1.6 万亿的参数量打破了 GPT-3 作为最大 AI 模型的统治地位 , 成为史上首个万亿级语言模型 。
然而 , 时间会证明一切 。2年后的今天 , 这个万亿参数的Switch大模型在当下似乎没产生任何水花 , 而千亿参数级别的GPT-3.5系列依然风生水起 。这是不是说明一个问题:突破千亿阈值后 , 参数多少并不代表一切 。
2021年2月
Open AI开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training) 。
CLIP是一个多模态模型 , 用来判断文字和图像两个不同"模态"信息的关联匹配程度 。
【人工智能的80年进化编年史:从想象到现实】在CLIP之前 , 也有人尝试过这个方向 , 但OpenAI最大的创意是直接使用全互联网上已经标记过的图像数据 , 巧妙的避免了海量数据标注的昂贵费用 。最后以接近40亿的互联网"文本-图像"训练数据打造了CLIP 。
这次重要的开源直接推动了各大AI绘画模型的迅猛发展 。CLIP的多模态能力正是各AI绘画大模型从文字到画面想象力的核心基础 。
同时 , OpenAI还发布了自己基于CLIP的 AI绘画DALL-E 模型 。这或许是大众听说的第一个"文本生成图像"的AI绘画模型了 。
从CLIP到DALL-E , 显然OpenAI走在了AI绘画大模型潮流的最前端 。
只是 , OpenAI在AI绘画模型的商业决策上出现了失误:因为没有开放使用DALL-E以及后续DALL-E2 , 而又开源了关键的CLIP模型 , 导致目前AI绘画模型的光芒完全被其开源继承者Stable Diffusion , 还有付费的Midjourney服务掩盖了 。


推荐阅读