『人工智能』深度 | AI 建模实际应用场景及效益( 二 ) |算法|语音识别技

本文插图

语音、图像识别持续突破，在语义理解方面，使用神经网络架构的算法也突破了人的水平。著名的史丹佛大学语义理解竞赛的文本问答数据集，内有 10 万条问答，都是从维基百科摘选的文章片段，然后对每一片段由真人提出问题，并在文章片段内找出答案的位置。准确率由 2017 年前的 60% 迅速攀升到最新的 90% 以上，远远超过人的水平，人的水平为 86.8% ，而准确率最高的神经网络是 94.6% 。它所使用的神经网络架构为一种称为 Transformer 的网络，叠加 24 次，形成一个深度大型的网络（BERT），并使用了兆级数量的词汇做训练。在其它常用的语义任务上，神经网络也都极大的提升了准确率，例如命名实体识别（NER）、关系识别、文本蕴含（text entailment）等。
这些人工智能的科技突破，让许多以往计算机不能应用到的场景成为新的应用。在语音方面，企业存储的海量录音，以往是黑盒子，无法进行分析整理。不像结构化的数据，使用大型的数据库，可以做查询、统计、分析、图表化等工作。如今，可以经由语音识别成为文字，然后再经由语义理解做分析，产生实际的应用效益。接下来将对最新的语音、语义技术在人工智能科技的应用作案例分析。三、语音语义分析现行科技状况语音识别相对比较容易理解和定义，其任务就是将声音转成文字，而转化的效果可以简易的用字错误率来界定。但是识别的准确率与诸多因素相关，可以用人的体验来做比喻，因为人工智能基本就是模仿人的智能： l 专业领域：如果在一个不同的专业领域，例如医学，许多的用语不是一般常用的，一个非医学专业的人士不容易理解这些医学的用语，做文字转化的也会出错。 l 口音/方言：严重的方言口音或是方言。 l 传播媒介：如电话信道。 l 背景声音：如吵杂的环境。这些都会影响识别的结果，就像人需要时间适应后才能听懂一个新环境里的对话交流。所以要降低语音转译的错误率，必须要能对专业或应用领域有足够的认识，熟悉地域的口音、方言等。普强的语音转译专注于固定领域来积累领域的专业话语，也同时积累了大量的语音覆盖了口音、方言、传播媒介特性、背景声音等因素，来优化语音转译的正确率。另一方面，语义理解任务相对的就比较不容易定义和理解，有一组学术界定义的语义理解相关的问题（GLUE）： l CoLA：单句的二分类问题, 判断一个英文句子在语法上是不是可接受的。 l SST-2：单句的二分类问题, 句子的来源于人们对一部电影的评价, 判断这个句子的情感。 l MRPC：句子对来源于对同一条新闻的评论，判断这一对句子在语义上是否相同。 l STS-B：这是一个类似回归的问题，给出一对句子，使用 1~5 的评分评价两者在语义上的相似程度。 l QQP：这是一个二分类数据集，目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的。 l MNLI-m：语型内匹配。推断两个句子是意思相近, 矛盾，还是无关的。 l MNLI-mm：跨语型匹配。推断两个句子是意思相近，矛盾，还是无关的。 l QNLI：也是一个二分类问题，两个句子是一个(question,answer)对，正样本为 answer 是对应question的答案，负样本则相反。 l RTE：是一个二分类问题，类似于 MNLI, 但是数据量少很多。 l WNLI：推断两个句子是意思相近，矛盾，还是无关的。 l AX：QA型图像数据库。这些任务都有许多应用场景，但是语义理解的应用范畴也有很多不能直接应用这些任务，例如从一段对话文本中来判断一个人是否结婚，如下面的对话： A：您好，我想跟您谈下我们公司最近的一个产品的活动，这个产品能够......B：嗯，谢谢，不过我需要和我老婆商量商量.... 明显的从这段对话里，可以判定B是已经结过婚的人。再例如，服务业里常有禁忌的用语如： A-先听我说or A-是谁说or A-怎么知道or A-谁告诉你or A-有没有搞错or A-你弄错了or A-说重点or A-你必须or A-本来应该or A-这个部门很差劲or A-这个部门差劲or A-到底需要不需要or A-你不要跟我喊or A-你明白了吗or A-那您觉得呢or A-我说的很清楚了or A-刚才不是对你说了这样的语义理解应用均不是 GLUE 里面的任务能够直接应用的，并且在 GLUE 里表现良好的神经网络架构也不能保证在真实应用的场景里达到产生业务价值的效果。2018 年底，谷歌发布了一种神经网络架构 BERT ，一种基于 Transformer 架构的多层叠加的神经网络， BERT 提出两种版本，基本版（BASE）和大型版（LARGE），参数如下： BERTBASE: L=12, H=768, A=12, Total Parameters=110MBERTLARGE: L=24, H=1024, A=16, Total Parameters=34 使用了 3.3Giga 的词汇作预训练，然后再按任务作微调训练，硬件使用了谷歌 TPU V2.0 的处理器， BERT 的基础版（BASE）需要 16 个 TPU 芯片， BERT 的 LARGE 版使用了 64 个 TPU 芯片，预训练需要 4 天。

『人工智能』深度 | AI 建模实际应用场景及效益( 二 )

推荐阅读

杭州|“我们就是鬼迷了心窍！”俩姑娘千里迢迢来杭州自首了

u1s2啥意思 u1s1是什么意思

使用浓替硝唑含漱液有哪些不良反应？

辨别|身体出问题了，嘴唇会给你“暗示”！教你如何从唇色辨别健康

朱之文|彩礼28万，婚车50万，法式豪宅，朱之文娶儿媳为啥这么舍得下本？

财经无忌谁将领跑中国功能饮料的下一个十年，答案在这里，千亿市场背后

【户籍】上海户籍人口期望寿命逾83岁

周樵夫|潜意识会有这些痕迹，藏不住的，有过关系的人

揭秘北上资金：连续5日加仓161只个股（附部分名单）

【小夜情感故事】世事漫随，一梦浮生，3星座再遇旧爱，人间温柔，2020年

湘湘爱美食|降温解暑还美容养颜，做一大锅都不够吃，高阶版西米露

#大表哥聊数码#游戏党们千万别入坑，公认续航最差的四款手机

如何写好高考作文(好的语文作文标题)

秧歌步怎么走?

杂技演员|沙宝亮英勇救人！路上遇车祸钻车将被困人员拉出，善举获赞无数

#冷炮历史飞虎#汉产防护服出口支援国际抗疫，供电保障按下“加速键”

亲朋|23桌婚宴放倒30多名亲友!岳父都进了医院,还有人发烧做核酸检测

大头聊娱室|吞并70个国家，差点成为中国统治者，中国一部落曾经被视为蛮夷

个人教学工作总结(个人教育教学经验总结)

怎样更改或取消GMAT考试