AI科技评论TB@大规模计算时代:深度生成模型何去何从( 三 )


【AI科技评论TB@大规模计算时代:深度生成模型何去何从】
AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

图2:在语义空间组织和操纵句子 。
我们来利用下面的公式对比 , 详细了解下自回归模型和VAE在建模句子时候的不同 。 对于长度为 句子, 自回归模型NLM会以前的单词们为条件来生成当前的单词, 如式(1)所示 。 GPT-2也许是最著名的自回归模型NLM的实例 , 其优势来自由于在大量文本上进行预训练 。 这种自回归模型缺乏一种由高层语义指导的生成的能力 。 相反 , VAE生成时 , 既依赖了先前的单词标记 , 又依赖了一个潜在变量, , 如式(2)所示 。 潜在变量决定了句子的主要“轮廓” , 例如时态 , 主题或情感 , 它会指导解码器在顺序解码的过程中按照轮廓来填充细节 。 将解码器decoder 与编码器encoder 组合 , 我们就得到了VAE模型 , 它通过最大化对数似然下限来学习参数 。

AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

尽管VAE具有扎实的理论优势 , 但当前语言建模中使用的VAE经常使用较小的网络体系结构(例如两层LSTM)来构建模型 ,这大大限制了模型的容量 , 导致性能欠佳 。 这种浅层VAE , 在当下的海量数据的时代 , 就尤其显得不适配----因为上文提到的DGM的通用技巧会奔溃:。
如果扩大VAE模型 , 并将其用作新的预训练语言模型(PLM) , 将会发生什么?因此 , 我们开发了Optimus(Organizing sentences with pre-trained modeling of a universal latent space) , 第一个针对自然语言的大规模深度隐变量模型 , 该模型使用句子级别的(可变)自动编码器在大型文本语料库进行了预训练 ,从而将由符号表达的自然语言组织在一个连续且紧凑的特征空间里 , 把对句子的语义操作转换为对向量的算术操作 。
Optimus体系结构如下图(a)所示 。 为了易于培训 , 我们使用BERT初始化编码器 , 并使用GPT-2初始化解码器 。 [CLS]位置输出的特征用于转化我们感兴趣的语义空间。 为了有效地利用GPT-2本身预训练的结果且不重新训练权重 , 我们研究了两种方案来把特征送给编码器 , 并让它被用起来 , 如图(b)所示:(1)充当了解码器的附加存储向量的作用出席;(2) 被添加到解码器的底部嵌入层 , 并在每个解码步骤中直接使用 。 从经验上 , 我们发现基于内存的方案效果更好 。 为了避免臭名昭著的特征消失问题 , 我们对KL项采用了一些特殊处理 , 包括周期性变化系数(cyclical annealing schedule)的技巧和按维度进行阈值处理(dimension-wise thresholding)的技术 。

AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

图3:(a) Optimus体系结构 , 由编码器和解码器组成 , (b) 向编码器注入特征向量的两种方式
作为一种新型的PLM , Optimus显示出一些有趣的结果 , 具有与现有PLM相比的独特优势:
语言建模----我们考虑了四个数据集 , 包括Penn Treebank ,SNLI, Yahoo, 和 Yelp语料库 , 并对每个PLM进行微调 。 由于VAE独特的先验分布中编码的语义知识 , Optimus在三个数据集上展示了低于GPT-2的困惑度(perplexity) 。 另外 , 和文献中所有的自然语言上的VAE相比 , Optimus显示了更好的特征学习性能 , 以相互信息(mutual information)和活动单位(active units)衡量 。 这意味着预训练本身就是缓解特征消失问题的有效方法 。
引导性的语言生成----由于潜在变量 的存在 , Optimus具有从语义级别控制句子生成的独特优势(GPT-2在此方面是不适用的) 。 这种可控制性给用户提供了一种新的方式来和语言生成模型进行交互 。 在图4中 , 我们展示了两种使用一些简单的潜在矢量操纵来说明这种想法:(1)通过潜在矢量的算术运算进行句子的类比写作:, (2)两个句子之间的过度:, 其中。 对于更复杂的潜在空间的句子操纵功能 , 我们考虑对话响应生成(dialog response generation) , 风格化响应生成(stylized response generation)和标签条件语句生成(label-conditional sentence generation)这些任务 。 Optimus在所有这些任务上都比现有方法具有优势 。


推荐阅读