【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好

【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好
本文插图

作者 | 蒋宝尚
当两个语言不通的人进行交流时候 , 手势和眼神自然就成了沟通神器 。 有时候 , 手势和眼神在表达意思的时候能胜过千言万语 。
能不能将这种类似的优势用在机器翻译?
近日 , 来自DeepMind、牛津大学以及卡内基梅隆的研究者合力发表了论文《Visual Grounding in Video for Unsupervised Word Translation》 , 提出用视觉基础改善无监督的单词映射 。
【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好
本文插图

(雷锋网)此篇论文也被收录到CVPR 2020 。 论文下载地址:https://arxiv.org/pdf/2003.05078.pdf
论文的基本思想是:地球上的人类可能说着数千种不同的语言 , 但用“眼”看到的世界确是只有一个 , 有了这个视觉基础 , 就可以弥合语言之间的差距 。
总体思路:利用教学视频获取共享视觉 作者在论文用的方法也很简单 , 模型通过“观看”视频 , 能够在两种语言之间建立共同的视觉表征 , 即在给定共享嵌入情况下构建视觉-文本混合映射算法 。
【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好
本文插图

(雷锋网)虽多种语言 , 描述的是同一种事物
举个简单的例子 , 儿童在学习语言的时候 , 更多的是观察环境并与周围的人互动 , 在这过程中 , 并不需要任何明确的指导和监督 。 他们在学习多门语言的时候 , 可以利用不同情况下的相似情境:他在周一听到“狗在吃东西”时候看到景象 , 与周五听到“le chien mange”句子时候看到的景象是类似的 。
作者们在构建无监督翻译系统的时候 , 就借鉴了上述思路:向系统提供不同国家人做事情的视频 , 同时用他们本国语言解释他们在做什么 。 选用内容大致相似的教学视频 , 比如虽然是不同语种 , 但是都是在教人如何榨橙汁的教学类视频 。
教学视频在YouTube上大量存在 , 并且内容相似度非常高 , 所以作者使用了教学视频作为训练数据 。 虽然使用自动语言识别技术能够得到了很多视频和相应的字幕 , 但收集的数据有很多瑕疵:首先对教学视频中的内容进行聚类并不容易 , 其次有时候教学视频中的“讲师”说着与主题无关的废话 。
【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好
本文插图

虽然有挑战 , 但是这种共享视觉促进了翻译的精准度 。 如上图所示 , 作者在论文提出的英法翻译 。 据说 , 通过看视频 , 在翻译常用词和视觉词时能达到28.0%和45.3%的正确率 , 对比基于检索翻译方法正确率12.5%和18.6%高了不少 。
模型架构:多语言无监督学习
【算法】小狗Puppy都是狗!DeepMind大招,以视觉为媒介,做无监督机器翻译,效果极好
本文插图

(雷锋网)
如上图所示 , 整个模型包括3个编码器 , 一个是针对语言X的 , 一个是针对Y的 , 一个是针对视频Z的 。 这三个编码器组成的模型 , 经过训练之后 , 其目标是能够视频Z建立X语言与Y语言的映射 。
语言X编码器由3部分组成:1、词嵌入层;2、简单的位置的全连接前馈网络层(a position-wise fully connected feed-forward layer);3、一个线性层 。 其中词嵌入层的作用是将序列转换成维度向量;全连接前馈网络层作用是现在单词上进行最大池化 , 然后生成序列维度向量;线性层的作用是建立联合嵌入空间与中间表示(Intermediate Representation)的映射 。
对于语言Y的编码器 , 作者使用了跨语言共享模型权重 , 即语言X和语言Y编码器之间共享前馈层和最后一个线性层的权重 。 为了将不同的语言输入到共享层 , 作者在语言Y中的单词嵌入层之后添加一个名为AdaptLayer的线性层 。


推荐阅读