微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?( 二 )


文章图片
那么,这样的模型是怎么“炼成”的呢?
Transformer加成,专攻训练数据
用AI搞文言文翻译,确实不是头一回见 。
百度是最早用机器学习做文言文翻译的,还申请过相关专利:「一种在白话文与文言文之间进行文体转换的方法和设备」 。
相关文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采用的,就是Transformer模型:
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
△图源:微软研究院AI头条
不过,文言文翻译中的训练数据,却一直是个难点 。
相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬 。
这次微软的文言文翻译,主要就解决了四个方面的数据问题:
其一,针对数据量不足,利用相同字词进行数据合成和增强 。文言文和现代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的训练数据 。
其二,针对句式变换不灵活,对数据格式进行变形,提升鲁棒性 。文言文断句和现代文不太一样,为此研究人员通过数据格式变形,来扩大训练数据量,让模型也学会翻译类似语句 。
其三,针对字体识别不力,用简繁混合数据训练,提升模型识别能力 。为了让机器学习能同时识别简繁混合的文言文,研究人员在训练模型时会将简体中文和繁体中文数据混合在一起进行训练,确保翻译模型不出错 。
其四,针对现代文的“新词”,专门建立相关数据集和识别模型,确保不“乱翻译” 。为了避免模型在遇到现代文中的“高铁、电脑、互联网”这种词时出现混乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来识别这些新词 。除了新词,也针对博客、论坛、微博等新文体进行训练 。
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
然而这都还只是文言文和中文之间的互译,整点英文试试?
英译中,bug藏不住了
这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?
先挑战一下单个的英文句子:
Never gonna give you up
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
看来简单句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗「当你老了」试试:
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
等等,“灰暗”、“阴景深”、“弯下腰在酒边”……这都是什么鬼?
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
简单的句子似乎还好,然而一到长句子,怎么就翻译成这样了?
不过,微软也说过,这次主要实现的是文言文和现代文互译,说明其他语言在翻译成文言文之前,应该也需要先翻译成现代文 。
那来看看微软的英译中效果怎么样:
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文出现失误的原因 。
相比之下,从文言文翻译现代文、再翻译到中文的效果要稍微好一点 。
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
顺带一提,虽然正经的英文字句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?
微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
文章图片
看来以后可以和翻译模型学习如何优雅地骂人了 。(手动狗头)
如果大家还调戏出了什么好玩的翻译,欢迎留言~
微软文言文翻译地址:https://cn.bing.com/translator
【微软|调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?】


推荐阅读