语法数据扩增提升推理启发法的鲁棒性


语法数据扩增提升推理启发法的鲁棒性文章插图
摘要 诸如 BERT 的预训练的神经模型在微调以执行自然语言推理(NLI)时 , 常常在标准数据集上展现出了高度准确性 , 但在受控的挑战集上 , 它们却表现出对语序敏感度的出奇缺乏 。 我们假设此问题并不主要因为预训练模型的局限性引起 , 而是由于缺乏众包的 NLI 样例引起的 , 而这些样例可能在微调阶段传递了语法结构的重要性 。 我们探索了几种方法来扩增标准训练集中语法丰富的实例 , 这些实例是通过对 MNLI 语料库的句子应用语法转换而生成的 。 而表现最好的扩增方法 , 主语/宾语倒置法 , 可以在不影响 BERT 对 MNLI 测试集性能的情况下 , 将 BERT 对受控实例的词序敏感度诊断从 0.28 提升至 0.73 。 这种改进全面超过了用于数据扩增的特定结构 , 这表明了扩增可以使 BERT 学习到抽象语法的表现形式 。
1.介绍在 NLP 里常见的监督学习范例中 , 特定分类任务的大量标记实例被随机地分为训练集和测试集 。 系统在训练集上进行训练 , 然后在测试集上进行评估 。 神经网络 , 尤其是对单词预测对象的进行预训练的系统 , 如 ELMo(Peters et al.,2018)或 BERT(Devlin et al.,2019)——在这种范例中表现出色:在具有足够大的预训练语料库的情况下 , 这些模型在许多测试集上所表现出的准确性达到甚至超过了未经训练的人类标注者(Raffel et al.,2019) 。
同时 , 越来越多的证据表明 , 从与训练集相同的范围中提取的测试集上的高精度并不表示模型已经掌握了该任务 。 当模型应用于表示相同任务的不同数据集中 , 这种差异可能表现为准确性的急剧下降(Talmor and Berant, 2019;Yogatama et al., 2019) , 或者表现为对输入语言无关扰动的过度敏感(Jia and Liang, 2017; Wallace et al., 2019) 。
在自然语言推理(NLI)任务中 , McCoy 等人(2019b)记录了这样的一种差异 , 即模型在标准测试集上的出色性能并不对应表明它能像人类定义的那样精通于此任务 。 在这个任务中 , 系统将获得两个句子 , 其被期望确定一个句子(前提)是否蕴含另一个句子(假设) 。 即使不是所有人 , 大多数人也都会同意 NLI 需要对语法结构敏感 。 例如 , 以下句子即使包含了相同的单词 , 但它们并不相互蕴含:
(1) 演员看到了律师 (The lawyer saw the actor.)
(2) 律师看到了演员 (The actor saw the lawyer.)
McCoy 等人构造了 HANS 挑战集 , 其包含了一系列此类构造的例子 , 并且其被用来表明 , 当 BERT 在 MNLI 语料库进行微调时 , 该微调模型在从该语料库提取的测试集上取得了较高的准确率 , 但其对语法几乎没有敏感性;该模型会错误地得出结论 , 如(1)蕴含(2) 。
我们考虑用两种解释来说明为什么在 MNLI 上微调的 BERT 会在 HANS 上失败 。 在代表性不足假设下 , BERT 在 HANS 上失败 , 是因为它的预训练表现形式缺失了一些必要的语法信息 。 而在缺失连接的假设下 , BERT 从输入中提取相关语法信息(参见 Goldberg 2019;Tenney et al. 2019) , 但是它无法在 HANS 上使用这个信息 , 因为很少有 MNLI 训练实例可以表明语法应该如何支持 NLI 的(McCoy et al., 2019b) 。 这两种假设都有可能是正确的:部分语法方面 BERT 可能根本未学习到 , 还有部分方面已经学过了 , 但并没有应用被用于进行推理 。
缺失连接假设预测 , 从一个语法结构中使用少量的实例进行训练集的扩增将使 BERT 知道任务需要它使用它的语法表现形式 。 这不仅将使得用于数据扩增的结构的改进 , 并且也可推广到其他结构上 。 相反 , 代表性不足假设预测 , 模型想要在 HANS 上具有更好的表现 , BERT 必须从头开始学习每种语法结构是如何影响 NLI 的 。 这预计需要有更大的数据扩增集来获得足够的性能 , 并且整个结构几乎不能泛化 。


推荐阅读