|长篇大论中抓取精华,语音实时生成知识图谱,这个系统可谓是首个
机器之心报道
【|长篇大论中抓取精华,语音实时生成知识图谱,这个系统可谓是首个】 机器之心编辑部
基于文本生成知识图谱的研究很常见 , 但是基于语音生成知识图谱 , 这算是第一家 。
本文插图
在这个信息飞速发展的时代 , 数据呈爆炸式增长 。 而互联网信息的多元性、异构性、结构松散等特点 , 给人们有效获取信息和知识带来了挑战 。
知识图谱(Knowledge Graph) 凭借强大的语义处理能力 , 为互联网时代的知识化组织和智能应用奠定了基础 , 并被广泛应用于智能搜索、知识问答、舆情分析等领域 。
然而在现有的技术中 , 大部分研究集中在从文本转化到图谱的过程 , 却忽略了从语音实时转换到图谱的研究 。
本文将介绍一篇关于从语音到图谱构建的论文 , 可以说是该领域的首个相关研究 。 这篇来自明略科学院知识工程实验室的论文已被人工智能国际顶会 IJCAI 2020 Demonstrations Track 接收 。
本文插图
论文链接:https://www.ijcai.org/Proceedings/2020/0777.pdf
论文简介
近年来语音接口受到极大欢迎 。 以智能音箱为例 , 截至 2019 年 , 估计有 35%的美国家庭至少配备了一个智能音箱 。 目前尽管存在成熟的语音识别工具包和商业语音转录系统 , 但面对长篇大论的交谈中 , 人们仍难以集中精力抓取其中的关键所在 。 而知识图谱可以追溯到早期的专家系统研究和语义网络 , 它提供了一种方法 , 这种方法可以可视化演讲者的关键思想 。
对于知识图谱的概念有不同的定义 。 这篇论文遵循此定义:「知识图谱作为一种数据表示工具 , 是对实体、属性、概念以及它们之间的关系进行建模」 。 为了从语音中构造知识图谱 , 有两个关键组件是必须的「实体 - 关系 - 实体」三元组和「实体 - 属性」对 , 如图 1 所示 。
在此论文中 , 来自明略科技的研究者们提出了 HAO 图谱 , 它基于 HAO 智能 , 而 HAO 智能整合了人类智能(HI) , 人工智能(AI)和组织智能(OI) , 实现了中文文本和语音知识图谱的实时生成和可视化 , 填补了本领域的空白 。
本文插图
图 1:知识图谱可视化示例
该论文主要有三大贡献:
该系统是已知首个公开发布的从语音中构建知识图谱的系统;
该系统设计并实现实时的语音图谱架构 , 能够根据演讲者的主题在图谱之间切换;
该系统还可以从开放的中文篇章中生成知识图谱 。
系统架构
HAO 图谱系统到底是怎样实现的?我们来看看它的技术架构 。
本文插图
图 2:系统整体架构图
语音转文本三大模块
首先 , 需要将语音转换为文本 , 这需要三大模块 。
Monitor:语音是根据 WebSocket 协议从前端 HTML 页面传输的 。 该模块通过端口实时监控前端页面发送的二进制语音流信号数据 , 并将数据保存在缓冲池中 。 当缓冲池数据大于 16000 字节时 , 缓冲池中的二进制语音流数据传输到后续的「语音转文本」模块中 。
ASR 模块:该模块将接收到的二进制语音流数据转换为无标点的文本 , 并以多线程的方式将其发送到前端 , 得到「语音转文本」显示结果 。 缓冲池中的无标点文本则根据上下文信息进行校对和更正 , 修正后的结果被传递给后续的「文本标点」模块 。
标点模块:该模块通过在中国日报语料库上基于 BERT 训练的模型 , 将接收到的无标点文本数据转换为带有标点符号的文本数据 , 并将转换结果保存在文本缓冲池中 。 此缓冲池用于缓存已加标点的文本 , 这是因为只有在识别出完整的句子后 , 该句子才会被发送到后续的「知识图谱构建」服务中 , 因此该模块会将完整的句子发送到知识图谱构建阶段 , 最后一部分没有标点符号的文本被缓存 。 如果带标点的文本都是完整的句子 , 并且句号在文本的末尾 , 则缓冲池被清空 。