语法数据扩增提升推理启发法的鲁棒性( 三 ) 摘要诸如BERT的预训练的神经模型在微调

我们没有试图确保生成实例的自然性；例如，在倒置转换中，车厢造成了大量噪音(The carriage made a lot of noise)被转换成大量噪音造成了车厢(A lot of noise made the carriage) 。此外，扩增数据集的标签存在一些噪音；例如，我们假设倒置将正确的标签从蕴含改为中性，但是也并非必然如此（如果买方遇到卖方(The buyer met the seller) ，那么卖方遇到买方(The seller met the buyer)是有可能的）。
最后，我们包括一个随机的打乱条件，其中 MNLI 前提及其假设都被随机打乱。我们使用这个情况来测试语法上不知情的方法是否能教会这个模型：当忽略单词顺序时，就无法做出可靠的推论。
4. 试验设置? 我们将每个扩增集分别添加到 MNLI 的训练集中，并对每个生成的训练集进行微调 BERT 的训练。微调的更多细节在附录 A.1 中。我们为扩增策略与扩增集大小的每种组合重复了五个随机种子的过程，但最成功的策略（倒置+转换假设（INVERSION+TRANSFORMED HYPOTHESIS））除外。且对于每个扩增的范围，均进行了 15 次运行。参照 McCoy 等人(2019b) ，在对 HANS 进行评估时，我们将模型产生的中性与矛盾标签合并为一个单一的非蕴含(non-entailment)标签。
? 对于原始前提(ORIGINAL PREMISE)与转换假设(TRANSFORMED HYPOTHESIS) ，我们尝试了分别使用每一种转换，并使用了包含倒置与被动化的数据集进行了实验。我们还分别对仅使用带有蕴含标签的被动化例子和仅使用带有非蕴含标签的被动化例子进行了单独的实验。作为基线，我们使用了 100 次在未进行数据扩增的 MNLI 上训练出的微调的 BERT 模型(McCoy et al., 2019a) 。
? 我们会报告模型在 HANS 上的准确性和在 MNLI 的开发集上的准确性（MNLI 测试集的标签不公开）。我们没有调整这个开发集的任何参数。我们下面讨论的所有比较都在 p<0.01 的水平上，比较结果都是十分显著的（基于双向 t 检验）。
5. 结果? MNLI 的准确性在不同的扩增策略中都非常相似，并且与未经扩增的基线(0.84)相匹配，这表明最多有 1215 个实例的语法扩增不会损害数据集的整体表现。相比之下， HANS 的准确度差异很大，大多数模型在非蕴含的实例中的表现得比置信准确度差（在 HANS 上为 0.5），这表明了它们采用了启发法（图 1）。很大程度上，最有效的扩增策略是倒置结合转换假设。 HANS 在单词重叠案例（其中正确的标签都是非蕴含的，例如：
文章插图
）的准确度在没有数据扩增的情况下为 0.28 ，在大型扩增集上为 0.73 。同时，在启发法做出正确预测的情况下（如
文章插图
），这种策略降低了 BERT 的准确性；实际上，在词汇重叠做出正确与不正确的预测情况下，最佳模型的准确度都是相似的，这表明了这种干预阻止了模型采用启发法。
文章插图
图 1：语法增强策略的比较。点表示诊断词汇重叠启发法对 HANS 实例的准确度，这是由在 MNLI 上微调的 BERT 的每次运行与每个扩增的数据集相结合所得到的。水平条表示整体运行的中位数准确度。置信准确度为 0.5 。
随机打乱的方法并未使模型在未经扩增的基线上得到了改善，表明关注语法的转换是必要的(表 A.2) 。被动化比倒置的收益要小得多，这可能是由于存在显式的标记引起的（如单词 by），这可能导致模型仅在这些单词出现时才考虑词序。有趣的是，即使是在 HANS 的被动实例中，倒置也仍比被动化更有效（大型倒置扩增：0.13；大型被动化扩增：0.01）。最后，自身倒置比倒置与被动化的结合更有效。

语法数据扩增提升推理启发法的鲁棒性( 三 )

推荐阅读

女生怎样练出一个美背

打金针减肥效果怎么样

[他人婚]被曝插足他人婚姻《青你2》选手申冰退赛

男子误遭3岁女儿枪杀▲3岁娃不小心扣动扳机，美国一男子误遭枪杀

Selina|20年后再看S.H.E, 为何她们三人差距那么大？

神话里的混沌是啥意思道教关于混沌的描述

安装、使用恒温水龙头有哪些注意事项

中年|募集资金没按约定投资竟用于个人消费中金国瑞案逾18亿元未兑付

主角|5本主角无敌嚣张的玄幻小说，全程高能不虐主，看得人很爽快

网络电视机顶盒哪个牌子好？选购必看的三大入门诀窍！

近期超级热门的5部综艺节目最近的热门综艺节目有哪些？

香辣虾怎么做最好吃家常做法,香辣虾的做法最正宗的做法窍门-

【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？|【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？

李亚鹏|李亚鹏：我的石头值3亿，四合院价值8亿，法院：限高，负债4000万

三弄|20200912《新闻联播》解读，欧盟停止数据传输给美国！|

网传博白发现1名确诊病例的密接者？官方回应

祁门红茶特点

产品|如何正确选购充电暖手宝？安全提醒来了

弈客围棋|金成龙翻案！法院判韩国棋院处罚违法需撤销，原创

孟晚舟|孟晚舟案再开庭，揭开“惊天丑闻”