普通文档也能变对话：深入理解对话补全技术 _对话补全

文章插图
当我们提到对话机器人，你是否也会像我一样立刻想起与Siri或者Alexa的一次次对话，虽然它们有时候可能会让你啼笑皆非，但也无可否认它们确实为我们的生活带来了很大便利。然而，训练这样的对话AI，其难点在于如何获取高质量的对话数据。过去我们通常需要收集大量的人类对话作为训练数据，这既费时又费力。那么，有没有更好的方法呢？
偶然想起去年阅读的一篇论文，介绍了一种对话补全的方案，非常有趣。今天就向大家介绍一种全新的方法——对话补全，它能帮我们把普通的文档转变成聊天记录。让我们一起探索这个颠覆传统的技术，看看它如何打破界限，让任何一篇文档都能“说话” 。
首先，让我们看一下“对话补全”（inpainting）这个词。它其实是从图像处理那块借用过来的，原意是指用周围的像素信息来补全图片中缺失或者损坏的部分。而在这篇论文里，我们可以理解为用已有的对话内容来推测和补全对话中缺失的部分。就好像我们在看一幅画时，如果画中有一部分缺失，我们就会想象这部分应该是什么样的，以使画看上去更完整。在对话补全中，我们也是这样，利用已有的对话内容来猜测缺失的部分，让整个对话听起来更流畅、更完整。
下面我们来看看这个论文是怎么讲的。
简介对话机器人需要大量的优质对话来进行训练，但这种数据往往不太好找。因此，论文作者想出了一种新的方法，叫做"对话补全"，就是把普通的文章改编成像我们日常聊天一样的对话。这样一来，我们就能从各种各样的文章中获取大量的对话内容了。具体来说，就是把文章的每一句话看作一个人的发言，然后机器人就要猜测另一个人可能的回答或者提问。
训练的部分对话补全器（inpainting）使用的是一种叫做T5的生成模型，这是一种编码器-解码器的模型。这个模型的训练方法跟我们之前见过的BERT模型有点类似，只不过有一个关键的不同：BERT是在句子中遮蔽单个的词语来训练模型，而在这里，我们是遮蔽掉整个发言来训练模型。
举个例子，考虑以下对话：

讲话者1：“你好，你怎么样？” 讲话者2：“我很好，谢谢你 。你呢？” 讲话者1：“我也很好，谢谢你的关心 。”

在对话补全任务中，可能会遮蔽一个完整的发言，像这样：
讲话者1：“你好，你怎么样？” 讲话者2：？讲话者1：“我也很好，谢谢你的关心。”模型的任务就是预测缺失的发言（在这个例子中，“我很好，谢谢你。你呢？”）。用于训练的损失函数是标准的交叉熵损失，它的目标是最小化原始发言在部分对话给出的情况下的负对数概率。
推理阶段在推理阶段，训练好的补全模型被用来将一篇文章转化为对话。假设我们有一篇这样的文章：

“猫是小型的食肉哺乳动物 。”“它们经常被当作宠物 。” “猫有强壮的柔韧体骼，反应快，爪子锐利且可以伸缩 。”

这篇文章被视作在一个假设的对话中，作者的一系列发言。这个对话最初看起来像这样：
【普通文档也能变对话：深入理解对话补全技术】

作者：“猫是小型的食肉哺乳动物 。” 读者：？ 作者：“它们经常被当作宠物 。”读者：？作者：“猫有强壮的柔韧体骼，反应快，爪子锐利且可以伸缩 。” 读者：？

问号代表对话中缺失的部分，这就是对话补全模型设计的目的，去填补这些缺失的部分。用了对话补全模型后，对话可能会变成这样：

作者：“猫是小型的食肉哺乳动物 。” 读者：“猫一般常在哪些地方出没呢？” 作者：“它们经常被当作宠物 。” 读者：“猫有哪些特殊的身体特征呢？” 作者：“猫有强壮的柔韧体骼，反应快，爪子锐利且可以伸缩 。” 读者：“真有意思，你能再多介绍一些关于猫的行为习性吗？”

文章和对话的例子
再让我们看另一篇文章：
“大象是大型哺乳动物。” “它们有长长的鼻子。” “大象是食草动物。” 用了对话补全模型后，对话可能会变成这样：

作者：“大象是大型哺乳动物 。” 读者：“大象有哪些独特的特征呢？” 作者：“它们有长长的鼻子 。” 读者：“大象平时都吃些什么？” 作者：“大象是食草动物 。” 读者：“真有趣，你能告诉我更多关于大象的栖息地信息吗？”
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  生活中常见的日用品哪些是有毒的？ 
                
                   
                
              
            

                  
              
                  科技俱乐部 Reno4系列正式发布，2999元！真香！OPPO 
                
                   
                
              
            

                  
              
                  Super游戏资讯■盾山要闪现，她带治疗团战无敌！，王者荣耀：带弱化输一半的辅助 
                
                   
                
              
            

                  
              
                  吃水果会起到减肥效果吗 
                
                   
                
              
            

                  
              
                  央视新闻客户端|新型自供能保温营房亮相 保障海拔5000米以上高原驻防部队野战宿营 
                
                   
                
              
            

                  
              
                  鸡蛋清的功效与作用 
                
                   
                
              
            

                  
              
                  数学思维是天生的?数学是一种思维方式 
                
                   
                
              
            

                  
              
                  农业农村部：加大涉渔“三无船舶”清理整治力度 
                
                   
                
              
            

                  
              
                  『1080军事台』14亿人每人捐100元能撑多久，答案让人难以置信，一旦发生冲突 
                
                   
                
              
            

                  
              
                  蜂蜜放冰箱行不行 蜂蜜放冰箱保存可以吗 
                
                   
                
              
            

                  
              
                  八位猕猴桃抗衰老专家 
                
                   
                
              
            

                  
              
                  【呼吸的鱼】不能要这个的！，搞笑GIF：你赶快接着，我已经结婚了， 
                
                   
                
              
            

                  
              
                  大学四年咋过才能不让自己后悔 
                
                   
                
              
            

                  
              
                  原料|自制颗粒饲料喂兔 
                
                   
                
              
            

                  
              
                  网游|你发现过网游bug吗？大学的时候玩DNF开罐子，买了一辆车哈哈哈！ 
                
                   
                
              
            

                  
              
                  首播破亿，口碑两极，《三体》能否帮B站走出“暗黑森林”？ 
                
                   
                
              
            

                  
              
                  DO早报|抖音、快手、微博等平台回应吃播浪费现象；贝壳找房上市首日开盘大涨超70%；北京对影视产业加大扶持力度｜Do早报 
                
                   
                
              
            

                  
              
                  s伤心果|怎样第一时间将支付宝和微信等支付通道冻结？，万一手机丢了 
                
                   
                
              
            

                  
              
                  汽车圈首个Boss热梗诞生，长城汽车营销太太太燃了！ 
                
                   
                
              
            

                  
              
                  焦糖老干妈|而不是技巧，生活需要的是聪明 
                
                   
                
              
            

          

二倍体 疫苗 二倍体和普通疫苗区别 

她当小三也不是第一回啦！ 

网花绿松石，曾经文玩圈的宠儿，现在也算是重新大火 

马蓉父亲：我女儿漂亮，王宝强不懂珍惜，离婚也不愁嫁，被打脸 

“硅胶脸”又来为祸古偶了！高颜值被打回原形，演技再好也白搭 

生姜可盆栽吗 生姜也能种盆栽 

怎么让普通玻璃门发光 怎么让玻璃门变透明 

口罩可以防二手烟吗 普通口罩可以防二手烟吗 

普通微波炉可以烤肉吗 微波炉使用十大禁忌 

3种让你越吃越瘦的食物，不用饿肚子也能减肥！你知道吗？