语法数据扩增提升推理启发法的鲁棒性摘要诸如BERT的预训练的神经模型在微调

文章插图
摘要诸如 BERT 的预训练的神经模型在微调以执行自然语言推理（NLI）时，常常在标准数据集上展现出了高度准确性，但在受控的挑战集上，它们却表现出对语序敏感度的出奇缺乏。我们假设此问题并不主要因为预训练模型的局限性引起，而是由于缺乏众包的 NLI 样例引起的，而这些样例可能在微调阶段传递了语法结构的重要性。我们探索了几种方法来扩增标准训练集中语法丰富的实例，这些实例是通过对 MNLI 语料库的句子应用语法转换而生成的。而表现最好的扩增方法，主语/宾语倒置法，可以在不影响 BERT 对 MNLI 测试集性能的情况下，将 BERT 对受控实例的词序敏感度诊断从 0.28 提升至 0.73 。这种改进全面超过了用于数据扩增的特定结构，这表明了扩增可以使 BERT 学习到抽象语法的表现形式。
1.介绍在 NLP 里常见的监督学习范例中，特定分类任务的大量标记实例被随机地分为训练集和测试集。系统在训练集上进行训练，然后在测试集上进行评估。神经网络，尤其是对单词预测对象的进行预训练的系统，如 ELMo(Peters et al.,2018)或 BERT(Devlin et al.,2019)——在这种范例中表现出色：在具有足够大的预训练语料库的情况下，这些模型在许多测试集上所表现出的准确性达到甚至超过了未经训练的人类标注者(Raffel et al.,2019) 。
同时，越来越多的证据表明，从与训练集相同的范围中提取的测试集上的高精度并不表示模型已经掌握了该任务。当模型应用于表示相同任务的不同数据集中，这种差异可能表现为准确性的急剧下降(Talmor and Berant, 2019;Yogatama et al., 2019) ，或者表现为对输入语言无关扰动的过度敏感(Jia and Liang, 2017; Wallace et al., 2019) 。
在自然语言推理（NLI）任务中， McCoy 等人(2019b)记录了这样的一种差异，即模型在标准测试集上的出色性能并不对应表明它能像人类定义的那样精通于此任务。在这个任务中，系统将获得两个句子，其被期望确定一个句子（前提）是否蕴含另一个句子（假设）。即使不是所有人，大多数人也都会同意 NLI 需要对语法结构敏感。例如，以下句子即使包含了相同的单词，但它们并不相互蕴含：
(1) 演员看到了律师 (The lawyer saw the actor.)
(2) 律师看到了演员 (The actor saw the lawyer.)
McCoy 等人构造了 HANS 挑战集，其包含了一系列此类构造的例子，并且其被用来表明，当 BERT 在 MNLI 语料库进行微调时，该微调模型在从该语料库提取的测试集上取得了较高的准确率，但其对语法几乎没有敏感性；该模型会错误地得出结论，如（1）蕴含（2）。
我们考虑用两种解释来说明为什么在 MNLI 上微调的 BERT 会在 HANS 上失败。在代表性不足假设下， BERT 在 HANS 上失败，是因为它的预训练表现形式缺失了一些必要的语法信息。而在缺失连接的假设下， BERT 从输入中提取相关语法信息(参见 Goldberg 2019;Tenney et al. 2019) ，但是它无法在 HANS 上使用这个信息，因为很少有 MNLI 训练实例可以表明语法应该如何支持 NLI 的(McCoy et al., 2019b) 。这两种假设都有可能是正确的：部分语法方面 BERT 可能根本未学习到，还有部分方面已经学过了，但并没有应用被用于进行推理。
缺失连接假设预测，从一个语法结构中使用少量的实例进行训练集的扩增将使 BERT 知道任务需要它使用它的语法表现形式。这不仅将使得用于数据扩增的结构的改进，并且也可推广到其他结构上。相反，代表性不足假设预测，模型想要在 HANS 上具有更好的表现， BERT 必须从头开始学习每种语法结构是如何影响 NLI 的。这预计需要有更大的数据扩增集来获得足够的性能，并且整个结构几乎不能泛化。

语法数据扩增提升推理启发法的鲁棒性

推荐阅读

决战！平安京|决战平安京，返校季大揭秘，新手最全攻略！！！

十大蓝牙小音箱排行榜，酷狗蘑蘑小音节奏闪灯一键DJ“城会玩”

风筝|《追风筝的人》：每个人终其一生，都在追逐属于自己的命运

电视剧|同样是扮演“乞丐”，孙俪流鼻涕，周星驰抢狗盆，而他本色出演！

赵露思|《骄阳似我》又传出新阵容，李现将搭档赵露思，你认为符合吗？

顶级奢侈品集团Kering的代表品牌及产地和代表作品或风格有哪些

易简财经|27万股民今夜无眠，黄了！两家券商千亿级合并告吹

华为|华为迎来大消息！俄外长刚刚表态，俄罗斯准备与中国以及华为开展5G技术合作

『包不同』疫情之下，京东有惊喜！

#泌尿外科李成方#长期疲劳会影响身体的哪些部分？

亚美尼亚人|二十世纪初，亚美尼亚人遭到了大屠杀，100万人死于土耳其人之手

『雷帝网』CFO称汽车业回报周期长亏损是阶段性的，恒大健康亏近50亿

拜登|美国下任总统已定？拜登犯下“致命”错误，这次奥巴马也“保不住”他！

精子能有杀菌消炎作用吗

怎么样让别人愿意了解自己

时尚旅游守在富豪门前32年，谁能让他动就奖励一万，印度最“尽职”保安

口腔科张兴医生：种植牙要如何护理？牙科医生教你4招，轻松延长使用寿命！很实用

权志龙否认吸毒传闻，曾被指在机场行为异常，疑似毒瘾发作，12年前曾承认吸毒

李云迪和朗朗谁厉害？

高三最后一个学期是啥心态、