AI科技评论TB@大规模计算时代:深度生成模型何去何从( 六 )



AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

图8:(a)模型学习的流程:在大量增强的R2R数据集中对机器进行预训练 , 并在三个下游任务上进行微调;(b)预训练数据集的百分比:98.4%的合成数据和1.6%的真实数据 。
预训练好模型后 , 我们尝试了三个下游导航任务的微调 , 包括房间到房间的导航(R2R) , 和两个域外任务:对话指导的视觉导航(CVDN)以及和人类交互更多的导航任务(HANNA) 。 我们的算法在这三个任务上都达到了最先进的水平 。 这些结果标明 , 深度生成模型合成的样品可用于预训练 , 并且可以提高其模型的通用性 。 有关更多详细信息 , 请阅读我们的CVPR 2020论文“Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training” 。 我们在GitHub上发布了Prevalent的预训练模型 , 数据集和代码 。 我们希望它可以为将来在视觉和语言导航这个子领域的自我监督预训练方面的研究奠定坚实的基础 。
3 展望未来
从上面的示例中 , 我们已经看到了在大规模训练时代 , 深度生成模型的的机遇 , 挑战和应用 。 下面我们谨慎地探讨下 , 这个时代背景下 , 深度生成模型未来可以开展的工作:
落地实用:随着我们继续推进这些模型并扩大其规模 , 我们可以期望DGM去合成高保真的图像或语言样本 。 这本身可能会在各个领域中会被真正地落地实用起来 , 例如艺术图像合成或面向任务的对话 。
技术组合:这三种深度学习模型类型的界限会很容易变得模糊 , 研究人员可以结合不同模型的优势进行进一步的改进 。 小规模的设置里已经有非常多融合的工作 , 那大规模的情况 , 是否会有新的技术难题呢?借助已经被极度大规模化的autogressive models, 其它模型类别是否会因此受益呢?
自我监督学习:这个我个人最感觉兴趣的方向 。 (1) 利用生成模型提升自我监督学习的性能 , 比如 Electra。 (2) 作为自我监督学习的一个分支 , DGM本身在基础工作上的进展也会在更加广泛的意义上影响自我监督学习。 比如 , 上文交代的DGM的通用技巧 , 更深入一层的思考 , 其实也是自我监督学习的通用技巧:有限参数量的神经网络 , 在学会生成(部分)观察到的数据的中对其过程进行编码 , 这必须要求模型本身可以有效地学习并发现掌握数据的本质 , 从而推理出对许多下游任务都通用的良好表达 。


推荐阅读