足够好的组合数据扩增( 四 ) 引用AndreasJ.Good-enoughcompositiona

分析：数据集统计将 GECA 应用于 GEOQUERY 数据将两种语言中的问题分割的 full example overlap（在第 3 节末尾描述）增加了 5% ，将使用逻辑表单的查询分割增加了 6% ，将使用 SQL 表达式的查询分割增加了 9% ，与以下观察结果一致：查询分割的准确性提高比问题分割更大。在所有条件下，扩增都会使令牌共现重叠增加 3-4％。
在对来自查询分割的 100 个合成样本的大规模人工分析中，评估它们的语法性和准确性（自然语言是否捕获逻辑形式的语义），我们发现 96%是语法正确的， 98%是语义准确的。
负面结果我们在 Iyer 等人的 SCHOLAR text-to-SQL 数据集上进行了相应的实验。该数据集在大小，多样性和复杂性方面与 GEOQUERY 类似。然而，与 GEOQUERY 相比， GECA 在 SCHOLAR 中的应用并没有带来任何改进。在查询分割上， SQL 子查询的组合重用有限。相应地，扩增后的 full example overlap 保持为 0% ，令牌共现重叠仅增加 1% 。这些结果表明，当 GECA 能够增加训练集和测试集中单词共现统计的相似度，以及当输入数据集表现出高度的递归性时， GECA 是最成功的。
5、低资源语言建模前面的两个部分都研究了条件模型。与示例（4）一致， GECA 提取和重用的片段实质上是同步词典条目。我们最初是用单语问题来激励 GECA 的，在这些问题中，我们只是希望改善关于格式正确性的模型判断，因此我们以一组语言建模实验作为结束。
我们在五种语言(Kinyarwanda, Lao, Pashto, Tok Pisin, and a subset of English Wikipedia)上使用 Wikipedia dumps ，以及 Adams 等人的 Na 数据集。这些语言展示了 GECA 在各种形态复杂性方面的表现：例如， Kinyarwanda 有一个复杂的名词类系统， Pashto 有丰富的派生词法，而 Lao 和 Tok Pisin 在形态上相对简单。训练数据集从 10K 到 2M 令牌不等。与 Adams 等人一样，我们发现 5-gram modified Kneser-Ney 语言模型优于几种 RNN 语言模型，因此我们将 GECA 实验建立在 n-gram 模型上。我们使用 KenLM 中提供的实现。
我们提取无间隙且最大大小为 2 个令牌的片段，环境被视为围绕所提取片段的 2 个令牌窗口。新用法仅针对数据中出现次数少于 20 次的片段生成。在 Kinyarwanda 语言中，基本数据集包含 3358 个句子。 GECA 使用 913 个不同的模板和 199 个不同的片段生成额外的 913 个样本。
我们发现最好的性能来自于在原始数据集和扩增数据集上训练一个语言模型，然后插值它们的最终概率，而不是像前面的章节那样直接在扩增数据集上训练语言模型。此插值的权重在验证数据集上确定，并选择 0.05、0.1 和 0.5 中的一个。
结果见表 4 。改进不是普遍的，并且比前几节要温和。但是， GECA 可以减少多种语言之间的困惑度，而不会使其增加。这些结果表明，即使在条件任务和神经模型之外， GECA 背后的替换原理也是一种鼓励合成的有用机制。
文章插图
表 4：English（ENG）， Kinyarwanda（KIN）， Lao ， Na ， Pashto（PUS）和 Tok Pisin（TOK）的低资源语言建模困惑度。
分析：样本和统计在语言建模中， GECA 作为一种平滑方案：它的主要作用是将大量数据移向可以出现在生产性上下文中的 n-grams 。从这个意义上说， GECA 的作用类似于所有 LM 实验中使用的 Kneser-Ney 平滑法。与 Kneser-Ney 不同的是， GECA 的“上下文”概念既可以向前看，也可以向后看，并且可以捕捉更长时间的互动作用。
合成句子的例子如图 5 所示。大多数句子都是语法性的，许多替换项保留了相关的语义类型信息（用 locations 代替 locations ，用 times 代替 times 等），但还是会生成一些格式错误的句子。

足够好的组合数据扩增( 四 )

推荐阅读

微软@一切发生太快了！世界首富突然宣布！外媒：这是一个时代的结束！

尘缘趣已蕴|BOB体育曝维尔纳转移动向，奥温：红军按紧荷包

好听的网名取什么网名

浙江在线|最多可省20元！周末到，抢张券去看电影吧大片＋攻略→

落叶知秋微信、支付宝用户注意，这3类照片劝你及时删除，不然吃亏就晚了

夏天家里怎么除湿最好，夏天家里除湿气最好的方法

违停事件|网约车路边违停，交警罚款200，司机们难过：一晚的收入没了

护芽妈妈|娃不听话的脾性究竟像谁？遗传学家：“娘胎情绪”影响最大

手势|亚毫米级精度！全球首款毫米波手势识别SoC发布：TWS耳机先行

[腾讯科技]亚马逊仓库只进必需品，贷款缠身的卖家业务受损、岌岌可危

北向资金动向曝光：7月9日这30只个股遭大甩卖（附名单）

晚上跑步好处有哪些

职场中，本来看新人不易，心生怜悯帮助她，没料想被被新人吃定，咋办

央视|疫情形势不容乐观！欧盟领导人称欧盟医疗体系将面临“被压垮”的风险

【兰州】速看！兰州七里河区新增湖北输入新冠肺炎确诊病例行动轨迹信息公布

「人民网」民政部：对因疫情在家隔离的孤寡老人、留守儿童等摸底

美国@美国啊，美国，截止于5月4日12时，“特朗普”再甩锅，蓬佩奥无路可退！

徐静蕾男友三宝是谁—徐静蕾从19岁开始恋爱，交过12个男友，她的魅力体现在哪些地方?

疫情居家拉动饮酒消费　韩国葡萄酒进口额创新高

环球时报|疫情救助贷款又被骗走买豪车！美国警方逮捕5名男子