#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”


#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图

来源:大数据文摘
本文约2297字 , 建议阅读5分钟
本文介绍Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种语言的跨语言词向量 , 通过提取生成了510种语言中“洗手”的短语翻译 。
这个世界上有多少种语言?
7117种 。 没错 , 不是方言 , 而是正在被使用的语言 。
人类传递信息的载体是语言 , 不同语言之间的交流靠的是翻译 , 比如世卫组织在疫情防控中 , 在官网上发布了一个公告 , 号召大家勤洗手以预防感染 。
#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图

作为一个国际组织 , 这里使用的默认语言是英语 , 但是在网站的右上角也有一个切换语言的地方 , 提供包括中文在内的6种语言可以选择 。
#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图

尽管这6种语言覆盖了世界超过35亿的人口 , 但是显然是远远不够的 。
求助于翻译软件?以目前世界上适用范围最广的谷歌翻译来说 , 现在只能支持100多种语言 , 也是现存语言的零头 。
#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图

像WHO发布的这种关于全球疫情的消息 , 肯定是希望能够覆盖到更多的人 , 但是目前很多地区面临语言障碍而导致信息的传播受阻 , 哪怕只是想告诉人们要勤洗手 。
为了让更多的人能够了解洗手的重要性 , 一位名叫Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种语言的跨语言词向量 , 然后从现有目标语言文档中提取“洗”、“手”的部分 , 然后将这些部分组合起来 , 生成了510种语言中“洗手”的短语翻译 。
Daniel用的是Facebook开发的MUSE(Multilingual Unsupervised and Supervised Embeddings)库 , 训练了544种语言和英语之间的跨语言词向量 , 而这些向量允许从现有文档中提取与目标短语“洗手”相似的短语 。
Daniel与语言社区SIL International的同事合作完成了这项工作 , 他们的成果可以在Ethnologue指南页面上看到——一份有着454种译文的新冠病毒指南 。
#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图

链接:
https://www.ethnologue.com/guides/health
下面就跟着数据菌一起来看看他是怎么做的吧!
拆解“洗脚”和“你的手” , 变成“洗手” 首先 , SIL International已经完成了2000多种语言的语义工作 , 目前管理着1600多种语言项目文档 。 所以我想他们可能已经将“洗手”或类似的短语多次翻译成数百种语言 , 这个猜想得到了证实!
因此我能够从我们的900多种语言档案库中快速收集文档 , 主要是完整的教学材料和圣经等 。 这些文档中的每一个都有英文对照 , 其中必然包含短语“洗手”或类似的短语 , 例如“洗脸” 。 此外 , 这些文档的质量都很高 , 并与当地语言社区合作进行了翻译和核查 。
语言数据集有了!
但是 , 这里有两个问题需要克服 。 首先 , 此数据只有大多数语言的数千个样本 , 这与用于训练机器翻译模型的数百万个样本相比还是太少;其次 , 即使文档中包含目标语言中的“洗手”一词 , 我们也不知道该词在周围文本中的确切位置 。
对于低资源语言数据集 , 我们当然可以利用机器翻译中的一些最新技术 , 但是需要花费一些时间来调整自动化的方法 , 以快速适应每种语言配对中的翻译模型 。 此外 , 我们定位的许多语言都没有现有的基准 , 可以与之比较评估指标 , 例如BLEU得分 。


推荐阅读