AIGC会是下一个万亿级AI风口吗( 三 )


从 GAN 到 Diffusion
GAN,是生成式 AI 的核心技术之一 。2014 年以来,以生成式对抗网络 (Generative Adversarial.NETwork,GAN) 为代表的深度学习算法的提出和迭代更新,让 AIGC 进入了快速发展阶段,带动了 AIGC 的一波热潮 。
赵德丽表示,在 Stable Diffusion 这种扩散算法出现之前,从生成的效果上看,在计算机领域,GAN 是效果最好的 。发展到现阶段,GAN 生成的人脸图像已经到了真假难辨的程度 。以 StyleGAN 为例,其生成的图片可以做到栩栩如生,光线和纹理都清晰可见,非专业人士几乎无法分辨出是由 AI 生成的虚假图 。即便是现在的 Diffusion model 目前也做不到现在 GAN 在人脸生成上的结果 。
但 GAN 有一个最大的缺点,它对于多类别、语义非常复杂的、一般场景下的图片生成的建模能力较弱 。如果只是人脸,只是猫或者只是狗这类场景的数据,GAN 的效果很好 。但它在某种复杂数据的规模能力方面,在性能上受限较大,如果把狗、猫、花朵、桌子、椅子、电话等不同种类的数据放在一起,目前的情况下,GAN 得不到一个较好的结果 。
而 Diffusion model 在这方面取得了突破性的进展 。Diffusion model 解决了 GAN 不能解决的问题,因此大家立刻意识到了它的巨大潜力 。今年是 Diffusion model 取得快速发展的第一年 。而且,它的发展速度超过当年的 GAN,当年的 GAN 已经足够火热了,但可以感受到,Diffusion model 现在的受关注程度超过当年的 GAN。
Diffusion 扩散化模型带动新一波 AIGC 的热潮
今年这波 AIGC 的热潮,被认为是由生成扩散模型带动起来的 。例如,OpenAI 发布了文本生成图像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初创公司 Stability.AI 发布了 Stable Diffusion...
百度 ERNIE-ViLG 团队向 InfoQ 介绍,扩散模型是受非平衡热力学的启发的一系列概率生成模型,通过逐渐增加噪声的方式对原始数据进行扰动,通过学习反向的恢复原始数据去噪过程得到用于生成数据的模型,典型的扩散模型如 DDPM 等 。而扩散模型在生成过程中加入文本条件产生了诸如 DALLE2、Imagen、ERNIE-ViLG 2.0 等基于扩散的文本生成图像模型 。传统生成对抗网络 GAN 存在训练不稳定和生成结果多样性差等缺点,而扩散模型显著提升了图像生成的效果和多样性,受到业界广泛关注 。
生成扩散模型在多模态生成领域展现出很好的可扩展性 。在训练数据时,把不同模态的训练数据混到一起,把文本、静态图片、视频、声音等各种各样不同类型的训练数据在一个语义空间里关联在一起 。但因为训练数据规模大,大模型的参数特别多,用这种方式,它仍然只能得到一张分辨率很低的图片 。然后不停地通过扩散模型算法,把很小的分辨率和图片不停地做超分辨率,不停地把一张很模糊的图片变得尺寸更大、更清晰,在这个过程里还会补上很多细节,最后得到一张相对较清晰的图 。
现在很多人应用 Diffusion model 来生成视频,生成音乐,目前为止它最为可行的还是生成静态的视觉画面 。
AIGC 相关技术逐步发展成熟
AIGC 包括多种内容形式,按照黄民烈的分类方法,分为感知智能和认知智能 。
感知类:文生图、语音生成、音乐生成等
认知类:续写、改错、小说故事创作、对话生成等
从技术上看,写作相关和图像生成这两个方向表现比较成熟,对话最难 。
【AIGC会是下一个万亿级AI风口吗】其中在文本生成方面,例如在金融文本摘要生成领域,其技术早已成熟到可以落地的程度 。ChatGPT 在内容的创作能力、问答流畅度上表现不错,但要深究其真实性、正确性和时效性,还存在不少问题 。如何保证内容的真实性、正确性和时效性,是现在 AIGC 尤其是文字类的生成需要重点考虑的问题 。
图像生成方面,AI 绘画格外火热 。百度 ERNIE-ViLG 团队认为,今年以来,AI 作画发展迅速,很大程度来自于技术的突破,使得效果有了质的飞跃,甚至有些 AI 图像作品十分惊艳 。
不过,虽然 AI 绘画已经进入实用阶段,但依然有很大的优化空间 。在技术角度,需要提高的主要是两个方面,包括生成的可控性和细节描述能力 。
AI 绘画的可控性有待提升,对于数量、逻辑、关系、多图关联等问题暂无有效的解决方案 。比如说要求生成 2 个苹果,左边是红色,右边是绿色 。虽然这里边的关系并不复杂,但模型很多时候,并不能稳定地生成正确的结果 。
细节描述能力有待提升,对于更加复杂的、有规律性的细节的描述能力有待提升 。比如对于一栋居民楼的图片,窗户应该是有多种不同描绘,有开的、有关的、有晾衣服的,同时很多窗户应该对齐且规格统一 。


推荐阅读