『人工智能』深度 | AI 建模实际应用场景及效益( 二 )
本文插图
语音、图像识别持续突破 , 在语义理解方面 , 使用神经网络架构的算法也突破了人的水平 。 著名的史丹佛大学语义理解竞赛的文本问答数据集 , 内有 10 万条问答 , 都是从维基百科摘选的文章片段 , 然后对每一片段由真人提出问题 , 并在文章片段内找出答案的位置 。 准确率由 2017 年前的 60% 迅速攀升到最新的 90% 以上 , 远远超过人的水平 , 人的水平为 86.8% , 而准确率最高的神经网络是 94.6% 。 它所使用的神经网络架构为一种称为 Transformer 的网络 , 叠加 24 次 , 形成一个深度大型的网络(BERT) , 并使用了兆级数量的词汇做训练 。 在其它常用的语义任务上 , 神经网络也都极大的提升了准确率 , 例如命名实体识别(NER)、关系识别、文本蕴含(text entailment)等 。
这些人工智能的科技突破 , 让许多以往计算机不能应用到的场景成为新的应用 。 在语音方面 , 企业存储的海量录音 , 以往是黑盒子 , 无法进行分析整理 。 不像结构化的数据 , 使用大型的数据库 , 可以做查询、统计、分析、图表化等工作 。 如今 , 可以经由语音识别成为文字 , 然后再经由语义理解做分析 , 产生实际的应用效益 。 接下来将对最新的语音、语义技术在人工智能科技的应用作案例分析 。三、语音语义分析现行科技状况 语音识别相对比较容易理解和定义 , 其任务就是将声音转成文字 , 而转化的效果可以简易的用字错误率来界定 。 但是识别的准确率与诸多因素相关 , 可以用人的体验来做比喻 , 因为人工智能基本就是模仿人的智能: l 专业领域:如果在一个不同的专业领域 , 例如医学 , 许多的用语不是一般常用的 , 一个非医学专业的人士不容易理解这些医学的用语 , 做文字转化的也会出错 。 l 口音/方言:严重的方言口音或是方言 。 l 传播媒介:如电话信道 。 l 背景声音:如吵杂的环境 。这些都会影响识别的结果 , 就像人需要时间适应后才能听懂一个新环境里的对话交流 。 所以要降低语音转译的错误率 , 必须要能对专业或应用领域有足够的认识 , 熟悉地域的口音、方言等 。普强的语音转译专注于固定领域来积累领域的专业话语 , 也同时积累了大量的语音覆盖了口音、方言、传播媒介特性、背景声音等因素 , 来优化语音转译的正确率 。另一方面 , 语义理解任务相对的就比较不容易定义和理解 , 有一组学术界定义的语义理解相关的问题(GLUE): l CoLA:单句的二分类问题, 判断一个英文句子在语法上是不是可接受的 。 l SST-2:单句的二分类问题, 句子的来源于人们对一部电影的评价, 判断这个句子的情感 。 l MRPC:句子对来源于对同一条新闻的评论 , 判断这一对句子在语义上是否相同 。 l STS-B:这是一个类似回归的问题 , 给出一对句子 , 使用 1~5 的评分评价两者在语义上的相似程度 。 l QQP:这是一个二分类数据集 , 目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的 。 l MNLI-m:语型内匹配 。 推断两个句子是意思相近, 矛盾 , 还是无关的 。 l MNLI-mm:跨语型匹配 。 推断两个句子是意思相近 , 矛盾 , 还是无关的 。 l QNLI:也是一个二分类问题 , 两个句子是一个(question,answer)对 , 正样本为 answer 是对应question的答案 , 负样本则相反 。 l RTE:是一个二分类问题 , 类似于 MNLI, 但是数据量少很多 。 l WNLI:推断两个句子是意思相近 , 矛盾 , 还是无关的 。 l AX:QA型图像数据库 。这些任务都有许多应用场景 , 但是语义理解的应用范畴也有很多不能直接应用这些任务 , 例如从一段对话文本中来判断一个人是否结婚 , 如下面的对话: A:您好 , 我想跟您谈下我们公司最近的一个产品的活动 , 这个产品能够......B:嗯 , 谢谢 , 不过我需要和我老婆商量商量.... 明显的从这段对话里 , 可以判定B是已经结过婚的人 。 再例如 , 服务业里常有禁忌的用语如: A-先听我说or A-是谁说or A-怎么知道or A-谁告诉你or A-有没有搞错or A-你弄错了or A-说重点or A-你必须or A-本来应该or A-这个部门很差劲or A-这个部门差劲or A-到底需要不需要or A-你不要跟我喊or A-你明白了吗or A-那您觉得呢or A-我说的很清楚了or A-刚才不是对你说了 这样的语义理解应用均不是 GLUE 里面的任务能够直接应用的 , 并且在 GLUE 里表现良好的神经网络架构也不能保证在真实应用的场景里达到产生业务价值的效果 。2018 年底 , 谷歌发布了一种神经网络架构 BERT , 一种基于 Transformer 架构的多层叠加的神经网络 , BERT 提出两种版本 , 基本版(BASE)和大型版(LARGE) , 参数如下: BERTBASE: L=12, H=768, A=12, Total Parameters=110MBERTLARGE: L=24, H=1024, A=16, Total Parameters=34 使用了 3.3Giga 的词汇作预训练 , 然后再按任务作微调训练 , 硬件使用了谷歌 TPU V2.0 的处理器 , BERT 的基础版(BASE)需要 16 个 TPU 芯片 , BERT 的 LARGE 版使用了 64 个 TPU 芯片 , 预训练需要 4 天 。
推荐阅读
- 新智元|B站上线!DeepMind加UCL强强联手推出深度学习与强化学习进阶课程(附视频)
- 月龙科技|LDS激光导航,精准技术安全可靠,美的扫地机人M7更深度体验
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|人工智能领域很多引人注目的进展并不真实
- 千家网|人工智能在半导体市场的发展潜力及其意义
- 国防科技要闻|【每日动态】1000亿美元资助高科技产业/人工智能分析微观结构/下一代武器系统体系结构的评估标准
- 新智元|Science | 人工智能领域很多引人注目的进展并不真实
- 论文Science | 人工智能领域很多引人注目的进展并不真实
- 人工智能|云从科技集团股份有限公司具体经营项目申报新增机器人、人工智能等
- 老牛牛和你聊数码|一加8 Pro 40天深度体验:系统流畅不简陋,综合体验很舒服