[大数据文摘]累死志愿者的维基百科被MIT最新AI接手啦!,每天上千条文本过时( 二 )


一个模型是事实核查分类器 , 预训练的时候需将每个句子标识为“同意”、“不同意”、“中立” , 主要用于找出存在矛盾的句子对 。
与分类器一起运行的还有一个自定义的“中立屏蔽”(neutralitymasker)模块 , 用以鉴别过时句子中哪些单词与声明句子相矛盾 。 该模块删除尽可能少的单词以达到“最大化中性” , 即句子可以被标记为中性 。
也就是说 , 如果把这些词屏蔽后 , 两个句子将不再存在矛盾信息 。 我们对过时语句构建了一个二进制的“遮蔽”模块 , 0代表可能需要删除的单词 , 1代表同意保留的单词 。
遮蔽后 , 我们使用一个“双编码—解码”框架(two-encoder-decoderframework)生成最终的输出句子 。 模型会学习声明句子和过时句子的特征 。 与此同时 , 采用“双编码—解码”过程来融合声明中相矛盾的单词:先删除过时句子中包含矛盾信息的单词(即被标记为0的单词) , 而后填补更新过的单词 。
在一项测试中 , 模型的测试结果超越了所有传统方法 , 测试使用一种名为“SARI”的方法比对机器删除、增加和保留句子与人类修订语句的差异 。
与传统文本生成方法相比较 , 新模型能更准确地更新事实信息 , 输出句子更加接近人类编写的结果 。
在另一项测试中 , 众包人员对模型生成的句子进行打分 , 主要是对事实更新准确性和语法匹配程度来打分 , 分值区间为1到5分 。 模型“事实更新”的平均得分为4分 , “语法匹配度”的平均得分为3.85分 。
数据增强 , 消除偏差
研究也表明 , 该系统可以用增强数据集来训练“虚假新闻”鉴别器 , 起到消除训练偏差的作用 。
“虚假新闻”用虚假信息的宣传形式来误导读者 , 从而获取更多的网络浏览和引发公众舆论 。
判断虚假信息的模型通常需要很多“同意-不同意”的句子对作为数据集 。
在这些句子对里 , 声明要么包含与维基百科给定的“证据”句子相匹配(同意)的信息 , 要么包含由人工修订后与证据句子相矛盾的信息(不同意) 。 模型经过训练可以将与“证据”相矛盾的句子标记为“错误” , 从而鉴别虚假信息 。
不幸的是 , Shah认为这些数据集势必存在偏差 。 “在训练期间 , 在缺少足够相关‘证据’语句的情况下 , 虚假信息中的某些短语也会让模型轻易发现‘漏洞’ 。 在评估真实语句实例的时候 , 这会降低模型的准确性 , 没法起到有效的核查作用 。 ”
研究者在维基百科项目中使用了同样的删除和融合技术来平衡数据集中的“不同意-同意”对 , 以缓解偏差 。 对一些“不同意”句子对 , 他们使用修正语句中的错误信息来为句子重新生成一个假的“证据” 。 若揭示性短语在“同意”和“不同意”句子中都存在 , 模型就能够辨别更多的特征 。 使用增强后的数据集 , 研究将虚假鉴别器的错误率减少了13% 。
Shan强调 , “如果在你的数据集中存在偏差 , 那么模型往往会失真 。 因此 , 数据增强非常有必要 。 ”
相关报道:
【[大数据文摘]累死志愿者的维基百科被MIT最新AI接手啦!,每天上千条文本过时】https://www.csail.mit.edu/news/automated-system-can-rewrite-outdated-sentences-wikipedia-articles
志愿者介绍
[大数据文摘]累死志愿者的维基百科被MIT最新AI接手啦!,每天上千条文本过时
文章图片
[大数据文摘]累死志愿者的维基百科被MIT最新AI接手啦!,每天上千条文本过时
文章图片
点「在看」的人都变好看了哦!


推荐阅读