#程序员#传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
本文插图
来源:大数据文摘
本文约2297字 , 建议阅读5分钟
本文介绍Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种语言的跨语言词向量 , 通过提取生成了510种语言中“洗手”的短语翻译 。
这个世界上有多少种语言?
7117种 。 没错 , 不是方言 , 而是正在被使用的语言 。
人类传递信息的载体是语言 , 不同语言之间的交流靠的是翻译 , 比如世卫组织在疫情防控中 , 在官网上发布了一个公告 , 号召大家勤洗手以预防感染 。
本文插图
作为一个国际组织 , 这里使用的默认语言是英语 , 但是在网站的右上角也有一个切换语言的地方 , 提供包括中文在内的6种语言可以选择 。
本文插图
尽管这6种语言覆盖了世界超过35亿的人口 , 但是显然是远远不够的 。
求助于翻译软件?以目前世界上适用范围最广的谷歌翻译来说 , 现在只能支持100多种语言 , 也是现存语言的零头 。
本文插图
像WHO发布的这种关于全球疫情的消息 , 肯定是希望能够覆盖到更多的人 , 但是目前很多地区面临语言障碍而导致信息的传播受阻 , 哪怕只是想告诉人们要勤洗手 。
为了让更多的人能够了解洗手的重要性 , 一位名叫Daniel Whitenack的AI大佬用使用了多语言无监督方法来训练500多种语言的跨语言词向量 , 然后从现有目标语言文档中提取“洗”、“手”的部分 , 然后将这些部分组合起来 , 生成了510种语言中“洗手”的短语翻译 。
Daniel用的是Facebook开发的MUSE(Multilingual Unsupervised and Supervised Embeddings)库 , 训练了544种语言和英语之间的跨语言词向量 , 而这些向量允许从现有文档中提取与目标短语“洗手”相似的短语 。
Daniel与语言社区SIL International的同事合作完成了这项工作 , 他们的成果可以在Ethnologue指南页面上看到——一份有着454种译文的新冠病毒指南 。
本文插图
链接:
https://www.ethnologue.com/guides/health
下面就跟着数据菌一起来看看他是怎么做的吧!
拆解“洗脚”和“你的手” , 变成“洗手” 首先 , SIL International已经完成了2000多种语言的语义工作 , 目前管理着1600多种语言项目文档 。 所以我想他们可能已经将“洗手”或类似的短语多次翻译成数百种语言 , 这个猜想得到了证实!
因此我能够从我们的900多种语言档案库中快速收集文档 , 主要是完整的教学材料和圣经等 。 这些文档中的每一个都有英文对照 , 其中必然包含短语“洗手”或类似的短语 , 例如“洗脸” 。 此外 , 这些文档的质量都很高 , 并与当地语言社区合作进行了翻译和核查 。
语言数据集有了!
但是 , 这里有两个问题需要克服 。 首先 , 此数据只有大多数语言的数千个样本 , 这与用于训练机器翻译模型的数百万个样本相比还是太少;其次 , 即使文档中包含目标语言中的“洗手”一词 , 我们也不知道该词在周围文本中的确切位置 。
对于低资源语言数据集 , 我们当然可以利用机器翻译中的一些最新技术 , 但是需要花费一些时间来调整自动化的方法 , 以快速适应每种语言配对中的翻译模型 。 此外 , 我们定位的许多语言都没有现有的基准 , 可以与之比较评估指标 , 例如BLEU得分 。
推荐阅读
- #程序员#腾讯女程序员相亲遭对方嫌弃,晒出聊天记录感叹:太难了
- 「游戏」在任天堂Switch上倒贴30块钱“加班”,我一个程序员还觉得很刺激
- 『程序员』阿里程序员感慨:公司期权套牢了我,外面开五六万的薪资都不想接
- 【大数据】干货满满!2020版好程序员新电商大数据平台全套学习资料
- #信息安全#精励联讯为信息安全合规再添助益
- 「程序员小助手」奶奶大学同学让我别学Python了,吃枣药丸,劝我学汇编,说是时髦
- 「」iQOO Neo3更多信息曝光,安兔兔测试成绩公布
- 火星:NASA分享火星探索任务新信息:将使用三艘宇宙飞船
- 「用户」TikTok推出家长控制功能并禁止16岁以下用户直接发送信息
- 『Facebook』Facebook将通知那些曾接触有害新冠病毒信息的用户