|长篇大论中抓取精华,语音实时生成知识图谱,这个系统可谓是首个( 二 )
知识图谱构建阶段
将语音转换成文本后 , 现在进入知识图谱构建阶段 。 该论文介绍了基于文本构建知识图谱所需的 5 个关键步骤:
预处理:这一步骤包括了去除提取文本中的特殊字符 , 利用基于 BERT 的序列标注模型进行中文分词和词性分析 , 通过基于中心语驱动的短语结构语法的神经网络模型进行依存句法分析 。 这些模型均在 Penn Chinese Treebank 数据集上训练得到 。
分块(Chunking):根据预处理阶段词性标注和依存关系的结果 , 按照规则对名词词性(如专有名词 NR 和其他名词 NN 等)进行分组组合 。 规则包括但不限于两个连续的专有名词(组)、专有名词后接其他名词、专有名词用标点符号或连词隔开 。 值得一提的是 , 该合并过程是递归执行的 。 例如 , 「人工智能 , 大数据 , 及物联网技术」这个短语中包含了三个专有名词、一个标点符号和一个连词 。 在分块步骤中 , 这些词被递归地合并为「人工智能 , 大数据及物联网技术」 , 并产生最终的分块结果 。
指代消解:该模块基于分块得到的结果 , 将文本中待分析的代词替换为指代消解模型的结果(即将代词替换为所指的名词) 。
信息提取:在进行信息提取时 , 利用预处理步骤中解析的依存关系 , 将每个动词短语作为候选三元组的谓词 , 并将其作为根节点遍历与其相关的名词短语 。 然后使用基于规则的方法提取三元组 。 对于三元组的主客体 , 抽取规则包括但不限于:关系的主体(nsubj)作为三元组主语 , 关系的主体(dobj)作为三元组宾语 。
后处理:最后 , 将上一步骤中获得的三元组进行后处理操作 , 如删除停用词 , 将所有三元组集成起来并输出 。
主题切换
为了实现生动的可视化 , 该研究设计了一个基于图数据库数据和上游模块返回结果来检测主题变化的模块 。 如果当前内容与之前的内容属于同一主题 , 则图数据库中与该主题相关的所有实体关系都将发送到前端进行显示 。 如果当前内容和前面的内容不属于同一主题 , 则只有当前内容的图结果显示在首页上 。
知识图谱抽象化
在基于语音生成知识图谱的过程中 , 语速快导致节点和边的数量急剧增加 。 因此 , 从完整语音中生成可视化的知识图谱变得非常复杂 , 这种情况甚至比原始文本更难理解 。 为了解决上述问题 , 该研究通过以下三个步骤对知识图谱进行抽象化处理:
关键集提取:首先 , 对于数据集 NLPCC 2017 corpus 中的所有文档集合 , 通过选择 TF-IDF 最高的词语 , 基于完全的语音转录文本获得一组关键词 。 另外 , 将中心度较高的节点选入关键节点集中 。
抽象过滤:其次 , 应用规则从语音系统中获取抽象化的知识图谱 。 使用关键词和关键节点集合之间的交集对「实体关系三元组」和「实体属性对」进行过滤 。
组件选择:最后 , 从知识图谱中选出最大连通分量 。 这一步很关键 , 因为小分量通常没有明确的含义 , 如下图 3 左上角所示 。
本文插图
图 3:在执行「组件选择」步骤之前 , 基于长语音构建的知识图谱及其抽象(彩色部分) 。
最后 , 作为首个基于语音实时生成知识图谱的系统 , HAO 图谱的效果如何呢?明略科技进行了满意度调查 。
在今年 1 月举办的 2000 人左右的会议上 , 该系 统实时地从两小时的谈话中提取知识图谱 。 满意度调查显示 , 61.54% 的受访者认为 HAO 图谱有助于更清楚地了解谈话内容 , 41.76% 的受访者认为该系统可以缓解认知疲劳 。 超过 65% 的受访者对该系统是否加强了沟通方面给予了 5/5 星级的评价 。