足够好的组合数据扩增( 五 )
与第 4 节一样 , 我们手动检查了 100 个合成句子 。 和以前一样 , 对句子进行语法评估;在这里 , 由于未提供显式语义 , 因此将对它们进行通用语义可接受性评估 。 在这种情况下 , 只有 51%的合成句子在语义上是可以接受的 , 但有 79%的合成句子在语法上是可以接受的 。
文章插图
图 5:英语建模任务中的句子合成
6、讨论我们介绍了一种简单的数据扩增方案 GECA , 该方案基于识别由通用上下文许可的局部短语替换 , 并演示了使用 GECA 生成的额外训练样本可以显著改善用于语义解析和语言建模的诊断和自然数据集 。
虽然这种方法在目前的形式下是非常有效的 , 但我们认为这些结果主要是为了更仔细地考虑句子片段表示在黑盒序列模型中有关组合性的更大问题中所起的作用 。 本文详细介绍的过程依赖于精确的字符串匹配来识别通用上下文;将来的工作可能会利用跨度及其环境的学习表示形式 。 当语法信息可用时 , 可以通过限制提取的片段以遵守组成边界来获得进一步的改进 。
这里介绍的实验集中在使用数据集中的证据重写句子 , 以鼓励归纳为新的输出 。 基于释义的数据扩增的另一种工作方式使用外部纯文本资源 , 鼓励对与已知输出相对应的新输入进行强有力的解释 。 这两种工作可以结合起来 , 例如使用 GECA 识别的片段来指示子句释义的有效位置 。
更一般地说 , 目前的结果强调了当前的模型在多大程度上没有学习到简单的、与上下文无关的重用概念 , 但是也强调了在模型架构没有根本改变的情况下解决这个问题是多么容易 。
【足够好的组合数据扩增】本文由南京大学软件学院 2020 级硕士生袁博翻译转述
推荐阅读
- 进攻才是最好的防守!华为按下“快进键”,传来3个好消息
- 卡内基梅隆大学提出了更好的强密码设置建议
- 惠普战66——可能是主流价位中最好的键盘体验
- 小米11效仿苹果不送充电器 或有更好的方式替代
- 越级的表现,三款音质超好的真无线耳机推荐
- 随时随地看猫狗,陌生人敲门也不害怕,就是这么神奇的组合
- 苹果砍单了 大范围取消用户订单 说好的用户是上帝呢?
- 适用于机器学习、数据科学和深度学习,不同价位最好的笔记本电脑
- 华为 Watch Fit 图赏:足够纤薄,也足够智慧
- Lava Be U在印度发布 低端手机辅以2+32GB内存组合