AI科技评论TB@大规模计算时代:深度生成模型何去何从



AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

作者 |Chunyuan
编辑 | 丛末
人工智能的核心愿望之一是开发算法和技术 , 使计算机具有合成我们世界上观察到的数据的能力, 比如自然语言 , 图片等等 。
每当我们建立一个模型来模仿这种能力时 , 该模型就称为生成模型(Generative Models) 。
如果该模型涉及深度神经网络 , 则该模型是深度生成模型(Deep Generative Models, 简称 DGMs) 。
作为深度学习中自我监督学习 (self-supervised learning)技术的一个分支 , DGM特别专注于刻画数据的生成过程 。 这篇文章回顾了DGM的历史 , 定义和现状 , 并分享最新的一些研究结果 。 最终希望启发大家去思考一个共同的主题:如何在大规模预训练时代推进或应用深度生成模型 。
1
历史回顾和基础知识:
三种类型的深度生成模型和一个通用技巧
生成模型(Generatitve Models)在传统机器学习中具有悠久的历史 , 它经常与另外一个主要方法(判别模型 , Discriminative Models)区分开 。 我们可以通过一个故事学到它们有何不同:有两兄弟 , 他们具有不同的特殊能力 , 一个具有深入洞察事物内在的能力 , 而另一个善于学习所见事物之间的差异 。 在故事里 , 前者代表生成模型 , 而后者代表区分模型 , 他们的特点总结为:
生成模型:专注于使用某种内部机制来表征实际观察的事物的分布;
区分模型:专注于在不同事物之间建立决策边界 。
随着深度学习的兴起 , 生成模型通过和深度神经网络的结合 , 逐渐形成了一个新的家族:深度生成模型 。 他们这个家族有个共同的特点 , 就是利用神经网络来模拟数据生成的过程 。 这样以来 , 复杂而神秘的数据生成过程就被某个参数量一定的神经网络的给拟合出来了 , 加之训练这个DGM的数据库本身大小也是确定的 , 这里就会出现一个潜在的通用技巧 。 引用2016年一篇OpenAI博客上的话来说:
我们用作生成模型的神经网络具有许多参数 , 这些参数远小于我们在训练它用的数据量 , 因此模型会被迫使发现并有效地内化数据的本质 , 从而以生成数据 。
简单地做一些数学上的刻画 。 作为来自真实数据分布的样本, 用于建模的数据集为。 深度生成模型的目标是使用参数为 的深度神经网络 , 来建立一个描述分布 , 然后通过训练来不断地调整参数 , 使得模型输出的分布 去尽量接近真实数据分布。
所有DGM都具有上述相同的基本目标和通用技巧 , 但是它们处理问题的思路方式不同 。 根据OpenAI的分类法 , 我们这里考虑三种流行的模型类型:VAE , GAN , 自回归模型 (autoregressive models) , 详见下表:

AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

表格1:不同深度学习模型的对比 。 不同类别标记为不同的颜色 , 它们对应的变种也用相同的颜色展示在下面的图1里 。
多年来 , 我们在发展DGM及其理论原理方面做出了许多努力 , DGM在较小的规模上现在已得到相对较好的理解 。 上面提到的DGM技巧保证模型在温和条件下可以正常运行: ; 许多在小规模设定下的研究已经验证了这一点 。 但是近期的研究表明, 预训练模型可以通过在海量数据上进行自监督学习 , 以获得了巨大的进步和惊人的实验结果( 急剧增加) 。
图1:我们考虑了三种流行的深度生成模型类型:蓝色的自动回归模型(神经语言模型 , 或NLM) , 绿色的可变自动编码器(VAE)和橙色的生成对抗网络(GAN) 。 Transformer和BERT作为重要的文献参考点也包括在图里 , 但并不作为本文考察重点 。 图里最右边的三个新模型 , 是在大规模计算的时代下我们自己的工作 。


推荐阅读