足够好的组合数据扩增( 五 ) 引用AndreasJ.Good-enoughcompositiona

与第 4 节一样，我们手动检查了 100 个合成句子。和以前一样，对句子进行语法评估；在这里，由于未提供显式语义，因此将对它们进行通用语义可接受性评估。在这种情况下，只有 51％的合成句子在语义上是可以接受的，但有 79％的合成句子在语法上是可以接受的。
文章插图
图 5：英语建模任务中的句子合成
6、讨论我们介绍了一种简单的数据扩增方案 GECA ，该方案基于识别由通用上下文许可的局部短语替换，并演示了使用 GECA 生成的额外训练样本可以显著改善用于语义解析和语言建模的诊断和自然数据集。
虽然这种方法在目前的形式下是非常有效的，但我们认为这些结果主要是为了更仔细地考虑句子片段表示在黑盒序列模型中有关组合性的更大问题中所起的作用。本文详细介绍的过程依赖于精确的字符串匹配来识别通用上下文；将来的工作可能会利用跨度及其环境的学习表示形式。当语法信息可用时，可以通过限制提取的片段以遵守组成边界来获得进一步的改进。
这里介绍的实验集中在使用数据集中的证据重写句子，以鼓励归纳为新的输出。基于释义的数据扩增的另一种工作方式使用外部纯文本资源，鼓励对与已知输出相对应的新输入进行强有力的解释。这两种工作可以结合起来，例如使用 GECA 识别的片段来指示子句释义的有效位置。
更一般地说，目前的结果强调了当前的模型在多大程度上没有学习到简单的、与上下文无关的重用概念，但是也强调了在模型架构没有根本改变的情况下解决这个问题是多么容易。
【足够好的组合数据扩增】本文由南京大学软件学院 2020 级硕士生袁博翻译转述

足够好的组合数据扩增( 五 )

推荐阅读

微软@一切发生太快了！世界首富突然宣布！外媒：这是一个时代的结束！

尘缘趣已蕴|BOB体育曝维尔纳转移动向，奥温：红军按紧荷包

好听的网名取什么网名

浙江在线|最多可省20元！周末到，抢张券去看电影吧大片＋攻略→

落叶知秋微信、支付宝用户注意，这3类照片劝你及时删除，不然吃亏就晚了

夏天家里怎么除湿最好，夏天家里除湿气最好的方法

违停事件|网约车路边违停，交警罚款200，司机们难过：一晚的收入没了

护芽妈妈|娃不听话的脾性究竟像谁？遗传学家：“娘胎情绪”影响最大

手势|亚毫米级精度！全球首款毫米波手势识别SoC发布：TWS耳机先行

[腾讯科技]亚马逊仓库只进必需品，贷款缠身的卖家业务受损、岌岌可危

北向资金动向曝光：7月9日这30只个股遭大甩卖（附名单）

晚上跑步好处有哪些

职场中，本来看新人不易，心生怜悯帮助她，没料想被被新人吃定，咋办

央视|疫情形势不容乐观！欧盟领导人称欧盟医疗体系将面临“被压垮”的风险

【兰州】速看！兰州七里河区新增湖北输入新冠肺炎确诊病例行动轨迹信息公布

「人民网」民政部：对因疫情在家隔离的孤寡老人、留守儿童等摸底

美国@美国啊，美国，截止于5月4日12时，“特朗普”再甩锅，蓬佩奥无路可退！

徐静蕾男友三宝是谁—徐静蕾从19岁开始恋爱，交过12个男友，她的魅力体现在哪些地方?

疫情居家拉动饮酒消费　韩国葡萄酒进口额创新高

环球时报|疫情救助贷款又被骗走买豪车！美国警方逮捕5名男子