AI科技评论TB@大规模计算时代:深度生成模型何去何从( 二 )


上图总结了深度生成模型随时间的简短演变历史 , 通过两种指标来衡量:
模型大小(参数数量)
科学影响力(迄今为止的引用次数)
OpenAI的研究人员认为 , 生成模型是最有前途的方法之一 , 可以潜在地实现用计算机了解世界的目标 。 沿着这些思路 , 他们在2018年开发了Generative Pre-training (GPT)) , 在各种未标记文本的语料库上训练了自回归神经语言模型(neural language model ,简称NLM) , 随后对每个特定任务进行了区分性微调 , 从而显着提高了多项任务的性能语言理解任务 。 在2019年 , 他们将这一想法进一步扩展到15亿个参数 , 并开发了GPT-2 , 该模型显示了近乎人类的语言生成能力 。 随着更多的计算 , 英伟达的Megatron 和微软的Turing-NLG 继承了相同的想法 , 并将其参数分别扩展到83亿和170亿 。
以上研究表明 , NLM已取得了巨大进步(大大增加 去匹配 ) 。 但是 , 作为自回归模型 , NLM仅仅是DGM的三种类型之一 。 还有两种其他类型的DGM(VAE和GAN) , 虽然他们学术影响力很大 , 但在大规模计算大行其道的当代 , 它们到底会有怎么样的表现呢?在这个时代 , 大型模型通过大规模计算在大型数据集上进行训练 , 这催生了新的学习范式:自我监督学习的预训练+特定任务的微调 。 在这种范式下 , 由上图可见 , 我们对大规模的DGM的研究较少 (比如并没有200M参数量以上的VAE或者GAN) , 我们也并不确定DGM的通用技巧是否仍可以在这种情况下很好地用于工业实践 。 由此 , 我们可以提出了一系列研究问题:
机遇:如果我们把DGM做到大规模 , 是否能和现有的预训练模型一争高低?
挑战:现有DGM是否需要进行修改 , 以使其在此大规模的数据上有效地工作?
应用:反过来做 , DGM是否可以帮助预训练?
接下来 , 我们用自己的研究结果作为例子 , 来对这些问题一一进行回答 。
Optimus:我们开发了第一个大规模的VAE模型 , 展示出比起主流的语言建模预训练模型(比如BERT和GPT-2)的一些优势。 【论文】【代码】
FQ-GAN:作为以分布匹配为目标的GAN , 在大数据上训练尤其困难 , 我们提出FQ作为一种有效的解决技巧 , 展示出在BigGAN, StyleGAN, U-GAT-IT这些主流模型上的性能提升 。 【论文】【代码】
Prevalent:我们使用生成模型合成大量多模态数据 , 并在此基础上进行自我监督学习 , 预训练了第一个通用的视觉语言导航系统 , 在三个相关任务上取得SoTA 。 【论文】【代码】
读者可以直接跳到相应的章节阅读具体内容 。
1、Optimus: 在语言建模领域的机遇
预训练语言模型(Pre-trained language models, 简称PLM)在各种自然语言处理任务方面取得了实质性进展 。 PLM通常经过训练 , 可以根据海量文本数据中的上下文预测单词 , 并且可以对学习的模型进行微调以适应各种下游任务 。 PLM通常可以扮演两个不同的角色:编码器(例如 BERT 和 Roberta)和解码器(例如 GPT-2 和 Megatron) 。 有时 , 两个任务都可以在一个统一的框架中执行 , 例如UniLM ,BART 和 T5 。 尽管这些已取得了显着的性能改进 , 但是它们缺乏一种在紧凑的特征空间对结构进行显式建模的功能 , 因此很难从整体句子的语义级别控制自然语言的生成和表示 。
原理上来说 , 变分自动编码器(VAE)经过有效训练后 , 既可以作为强大的生成模型使用 , 又可以作为自然语言的有效表示学习框架来使用 。 VAE把句子表示在低维的特征空间中 , 通过操纵句子对应的特征向量表示来轻松操纵句子语义上的变化(比如使用可解释的向量运算符等) , 操作后的向量作为整体语义的概要 , 来指导句子的生成 。 例如 , 基本款的VAE就提供了一种由先验分布来指定的特征平滑的正则化 。 下图展示了VAE操纵句子变换的过程 。


推荐阅读