AI科技评论TB@大规模计算时代：深度生成模型何去何从( 三 )

【AI科技评论TB@大规模计算时代：深度生成模型何去何从】

本文插图

图2：在语义空间组织和操纵句子。
我们来利用下面的公式对比，详细了解下自回归模型和VAE在建模句子时候的不同。对于长度为句子，自回归模型NLM会以前的单词们为条件来生成当前的单词，如式（1）所示。 GPT-2也许是最著名的自回归模型NLM的实例，其优势来自由于在大量文本上进行预训练。这种自回归模型缺乏一种由高层语义指导的生成的能力。相反， VAE生成时，既依赖了先前的单词标记，又依赖了一个潜在变量, ，如式（2）所示。潜在变量决定了句子的主要“轮廓” ，例如时态，主题或情感，它会指导解码器在顺序解码的过程中按照轮廓来填充细节。将解码器decoder 与编码器encoder 组合，我们就得到了VAE模型，它通过最大化对数似然下限来学习参数。

本文插图

尽管VAE具有扎实的理论优势，但当前语言建模中使用的VAE经常使用较小的网络体系结构（例如两层LSTM）来构建模型，这大大限制了模型的容量，导致性能欠佳。这种浅层VAE ，在当下的海量数据的时代，就尤其显得不适配----因为上文提到的DGM的通用技巧会奔溃：。
如果扩大VAE模型，并将其用作新的预训练语言模型（PLM），将会发生什么？因此，我们开发了Optimus（Organizing sentences with pre-trained modeling of a universal latent space），第一个针对自然语言的大规模深度隐变量模型，该模型使用句子级别的（可变）自动编码器在大型文本语料库进行了预训练，从而将由符号表达的自然语言组织在一个连续且紧凑的特征空间里，把对句子的语义操作转换为对向量的算术操作。
Optimus体系结构如下图（a）所示。为了易于培训，我们使用BERT初始化编码器，并使用GPT-2初始化解码器。 [CLS]位置输出的特征用于转化我们感兴趣的语义空间。为了有效地利用GPT-2本身预训练的结果且不重新训练权重，我们研究了两种方案来把特征送给编码器，并让它被用起来，如图（b）所示：（1）充当了解码器的附加存储向量的作用出席;（2）被添加到解码器的底部嵌入层，并在每个解码步骤中直接使用。从经验上，我们发现基于内存的方案效果更好。为了避免臭名昭著的特征消失问题，我们对KL项采用了一些特殊处理，包括周期性变化系数（cyclical annealing schedule）的技巧和按维度进行阈值处理（dimension-wise thresholding）的技术。

本文插图

图3：(a) Optimus体系结构，由编码器和解码器组成， (b) 向编码器注入特征向量的两种方式
作为一种新型的PLM ， Optimus显示出一些有趣的结果，具有与现有PLM相比的独特优势：
语言建模----我们考虑了四个数据集，包括Penn Treebank ,SNLI, Yahoo, 和 Yelp语料库，并对每个PLM进行微调。由于VAE独特的先验分布中编码的语义知识， Optimus在三个数据集上展示了低于GPT-2的困惑度（perplexity）。另外，和文献中所有的自然语言上的VAE相比， Optimus显示了更好的特征学习性能，以相互信息（mutual information）和活动单位（active units）衡量。这意味着预训练本身就是缓解特征消失问题的有效方法。
引导性的语言生成----由于潜在变量的存在， Optimus具有从语义级别控制句子生成的独特优势（GPT-2在此方面是不适用的）。这种可控制性给用户提供了一种新的方式来和语言生成模型进行交互。在图4中，我们展示了两种使用一些简单的潜在矢量操纵来说明这种想法：（1）通过潜在矢量的算术运算进行句子的类比写作：，（2）两个句子之间的过度：，其中。对于更复杂的潜在空间的句子操纵功能，我们考虑对话响应生成（dialog response generation），风格化响应生成（stylized response generation）和标签条件语句生成（label-conditional sentence generation）这些任务。 Optimus在所有这些任务上都比现有方法具有优势。

AI科技评论TB@大规模计算时代：深度生成模型何去何从( 三 )

推荐阅读

宋雨琦事件，狂热粉丝，应该降温了。

铭月妈咪|若赶上这3个“时间”，暗示孩子有福气，孩子出生时间有讲究

独立|杭师大钱江学院回应“将停办”：已成立专班推进转设

|魔兽WLK：一件蓝色饰品，全职业看到都点需求，诸多理由令人无奈

在平时生活中怎样养生

幼儿园老师发午餐照后被撤回，细心家长秒截图：请给个解释

小积木全新视角|咖啡和它是绝配，细腻香甜，唇齿留香，一定要试试，秋天下午茶

马斯卡彭能做什么?马斯卡彭是什么?

支付宝|当年的支付宝锦鲤被人羡慕，现在却要1元转让了？

请叫我绅士|开学第一天在俺口袋里塞了一把酸枣，开心笑话：姥姥特别疼俺

石立薇|《1921》剧照曝出，黄轩寸头照太“丑”引争议，瞬间老了十岁？

『乐居网』底价20.1亿元，天津国资委拟转让天津交通集团100%股权

枸杞■天然的“雄激素”找到了，男人没钱也要多吃，保持年轻有活力

中国青年网|资产泡沫警报响起，美国经济正式衰退：“长期失业大军”被低估

最高检点名孙政才、王三运、秦光荣、陈刚：对48名“老虎”提起公诉

吹风机催熟菠萝蜜方法

岳云鹏|岳云鹏占王丽坤便宜？郭德纲当众一巴掌，节目录制曾一度失控

HIV|如何远离艾滋病？

春季有效减肥如何饮食水果搭配汤粥最科学

拇指伸不直，掰直了弯不回来还痛，因为啥？