足够好的组合数据扩增( 三 ) 引用AndreasJ.Good-enoughcompositiona

分析：数据集统计为了更深层次理解 GECA 的行为，我们进行了最后一组分析，以量化合成数据和保留数据之间的重叠。我们首先测量 full example overlap ，即出现在扩增训练集中的测试样本的比例（根据设计，测试集与原始训练集之间不存在重叠）。应用 GECA 后，自动合成add primitive条件下 5%的测试样本和add template条件下 1%的样本。接下来我们测量 token co-occurrence overlap：我们计算在任何测试样本中一起出现的（输入或输出）令牌集，然后测量在某些训练样本中也一起出现的这些对的比例。对于add primitive条件， GECA 将 token co-occurrence overlap 从 83%提高到 96%；对于add template条件，即使在扩增之前，它也是 100％。
需要注意的是， GECA 只看到训练集，它不知道数据的某些子集在评估时被挑选出来进行泛化测试。数据扩增协议生成了大量与期望的泛化无关的伪训练样本（如图 3 中的第一个样本）；然而，它也生成了足够多的目标概念的新用法，使得学习者能够成功地进行泛化。
4、语义解析接下来我们将讨论语义解析问题，它也是一个关于组合性、泛化和数据扩增问题的热门研究课题。基于第 2 节讨论的原因，我们期望在没有 SCAN 受控词汇的情况下，这种方法在真实语言数据上的行为会有质的不同。
我们研究了 GEOQUERY 数据集的四个版本，它包含了 880 个关于美国地理的英语问题，并以逻辑表达式或 SQL 查询的形式与语义表示进行配对。此数据集的标准训练-测试分割确保在训练集和测试集之间不会重复出现自然语言问题。这只提供了一个有限的泛化测试，因为许多测试样本具有与训练数据重叠的逻辑形式；因此引入了更具挑战性的query分割，以确保问题和逻辑形式都不会重复（即使在匿名命名实体之后）。
我们提取最多有 2 个间隙和最多 12 个令牌的片段。对于 SQL 查询分割，原始训练集包含 695 个样本。 GECA 使用 839 个不同的模板和 379 个不同的片段生成额外的 1055 个样本。对于问题分割，我们使用了 Jia 和 Liang（2016）的基线模型；对于查询分割，我们使用与 SCAN 相同的 sequence-to-sequence 模型，并引入了 Finegan-Dollak 等人的监督复制机制。（2018 年）。环境再次被视为与模板相同。
结果见表 2 。对于 Jia 和 Liang（2016）报告结果的分割， GECA 在较弱的领域假设下实现了几乎相同的改进。对于其余的分割，它更准确。
文章插图
表 2：GEOQUERY 数据集的意义表示精确匹配精度
文章插图
图 4：用于在 GEOQUERY 上进行语义解析的合成样本
分析：样本图 4 显示了逻辑和 SQL 表示的合成样本。尽管 sequence-to-sequence 模型既没有使用 gold entities ，也没有使用专门的实体链接机制，但扩增过程成功地将自然语言实体名称与其逻辑表示对齐，并在实体选择中进行了泛化。此过程还产生了可信但未经证实的实体，例如，一条名叫 florida 的河和一个名叫 west wyoming 的州。
“逻辑形式”部分的最后一个例子特别有趣。提取的片段在自然语言方面包含最低的人口密度，但在逻辑形式方面仅包含密度。但是，环境会在适当的情况下限制替换的发生：仅当环境中已经包含必要的最小值时，才使用此片段。
有些替换在语义上存在问题:例如，图 4 中的最后数据点询问一个数字的总体数量(因为替换用 area 替换了 capital);相应的 SQL 表达式将无法执行。然而，除了类型化问题之外，该样本在语法上是格式良好的，并提供了关于地理领域内的组成边界、路线和层次结构的正确证据。其他合成样本（如图 4 中倒数第二个）具有正确的含义表示，但输入的自然语言不符合语法。

足够好的组合数据扩增( 三 )

推荐阅读

微软@一切发生太快了！世界首富突然宣布！外媒：这是一个时代的结束！

尘缘趣已蕴|BOB体育曝维尔纳转移动向，奥温：红军按紧荷包

好听的网名取什么网名

浙江在线|最多可省20元！周末到，抢张券去看电影吧大片＋攻略→

落叶知秋微信、支付宝用户注意，这3类照片劝你及时删除，不然吃亏就晚了

夏天家里怎么除湿最好，夏天家里除湿气最好的方法

违停事件|网约车路边违停，交警罚款200，司机们难过：一晚的收入没了

护芽妈妈|娃不听话的脾性究竟像谁？遗传学家：“娘胎情绪”影响最大

手势|亚毫米级精度！全球首款毫米波手势识别SoC发布：TWS耳机先行

[腾讯科技]亚马逊仓库只进必需品，贷款缠身的卖家业务受损、岌岌可危

北向资金动向曝光：7月9日这30只个股遭大甩卖（附名单）

晚上跑步好处有哪些

职场中，本来看新人不易，心生怜悯帮助她，没料想被被新人吃定，咋办

央视|疫情形势不容乐观！欧盟领导人称欧盟医疗体系将面临“被压垮”的风险

【兰州】速看！兰州七里河区新增湖北输入新冠肺炎确诊病例行动轨迹信息公布

「人民网」民政部：对因疫情在家隔离的孤寡老人、留守儿童等摸底

美国@美国啊，美国，截止于5月4日12时，“特朗普”再甩锅，蓬佩奥无路可退！

徐静蕾男友三宝是谁—徐静蕾从19岁开始恋爱，交过12个男友，她的魅力体现在哪些地方?

疫情居家拉动饮酒消费　韩国葡萄酒进口额创新高

环球时报|疫情救助贷款又被骗走买豪车！美国警方逮捕5名男子