足够好的组合数据扩增( 三 )


分析:数据集统计 为了更深层次理解 GECA 的行为 , 我们进行了最后一组分析 , 以量化合成数据和保留数据之间的重叠 。 我们首先测量 full example overlap , 即出现在扩增训练集中的测试样本的比例(根据设计 , 测试集与原始训练集之间不存在重叠) 。 应用 GECA 后 , 自动合成add primitive条件下 5%的测试样本和add template条件下 1%的样本 。 接下来我们测量 token co-occurrence overlap:我们计算在任何测试样本中一起出现的(输入或输出)令牌集 , 然后测量在某些训练样本中也一起出现的这些对的比例 。 对于add primitive条件 , GECA 将 token co-occurrence overlap 从 83%提高到 96%;对于add template条件 , 即使在扩增之前 , 它也是 100% 。
需要注意的是 , GECA 只看到训练集 , 它不知道数据的某些子集在评估时被挑选出来进行泛化测试 。 数据扩增协议生成了大量与期望的泛化无关的伪训练样本(如图 3 中的第一个样本);然而 , 它也生成了足够多的目标概念的新用法 , 使得学习者能够成功地进行泛化 。
4、语义解析接下来我们将讨论语义解析问题 , 它也是一个关于组合性、泛化和数据扩增问题的热门研究课题 。 基于第 2 节讨论的原因 , 我们期望在没有 SCAN 受控词汇的情况下 , 这种方法在真实语言数据上的行为会有质的不同 。
我们研究了 GEOQUERY 数据集的四个版本 , 它包含了 880 个关于美国地理的英语问题 , 并以逻辑表达式或 SQL 查询的形式与语义表示进行配对 。 此数据集的标准训练-测试分割确保在训练集和测试集之间不会重复出现自然语言问题 。 这只提供了一个有限的泛化测试 , 因为许多测试样本具有与训练数据重叠的逻辑形式;因此引入了更具挑战性的query分割 , 以确保问题和逻辑形式都不会重复(即使在匿名命名实体之后) 。
我们提取最多有 2 个间隙和最多 12 个令牌的片段 。 对于 SQL 查询分割 , 原始训练集包含 695 个样本 。 GECA 使用 839 个不同的模板和 379 个不同的片段生成额外的 1055 个样本 。 对于问题分割 , 我们使用了 Jia 和 Liang(2016)的基线模型;对于查询分割 , 我们使用与 SCAN 相同的 sequence-to-sequence 模型 , 并引入了 Finegan-Dollak 等人的监督复制机制 。 (2018 年) 。 环境再次被视为与模板相同 。
结果见表 2 。 对于 Jia 和 Liang(2016)报告结果的分割 , GECA 在较弱的领域假设下实现了几乎相同的改进 。 对于其余的分割 , 它更准确 。
足够好的组合数据扩增文章插图
表 2:GEOQUERY 数据集的意义表示精确匹配精度
足够好的组合数据扩增文章插图
图 4:用于在 GEOQUERY 上进行语义解析的合成样本
分析:样本 图 4 显示了逻辑和 SQL 表示的合成样本 。 尽管 sequence-to-sequence 模型既没有使用 gold entities , 也没有使用专门的实体链接机制 , 但扩增过程成功地将自然语言实体名称与其逻辑表示对齐 , 并在实体选择中进行了泛化 。 此过程还产生了可信但未经证实的实体 , 例如 , 一条名叫 florida 的河和一个名叫 west wyoming 的州 。
“逻辑形式”部分的最后一个例子特别有趣 。 提取的片段在自然语言方面包含最低的人口密度 , 但在逻辑形式方面仅包含密度 。 但是 , 环境会在适当的情况下限制替换的发生:仅当环境中已经包含必要的最小值时 , 才使用此片段 。
有些替换在语义上存在问题:例如 , 图 4 中的最后数据点询问一个数字的总体数量(因为替换用 area 替换了 capital);相应的 SQL 表达式将无法执行 。 然而 , 除了类型化问题之外 , 该样本在语法上是格式良好的 , 并提供了关于地理领域内的组成边界、路线和层次结构的正确证据 。 其他合成样本(如图 4 中倒数第二个)具有正确的含义表示 , 但输入的自然语言不符合语法 。


推荐阅读