「创投市场」| AI 建模实际应用场景及效益,深度( 二 )


「创投市场」| AI 建模实际应用场景及效益,深度
文章图片
语音、图像识别持续突破 , 在语义理解方面 , 使用神经网络架构的算法也突破了人的水平 。 著名的史丹佛大学语义理解竞赛的文本问答数据集 , 内有10万条问答 , 都是从维基百科摘选的文章片段 , 然后对每一片段由真人提出问题 , 并在文章片段内找出答案的位置 。 准确率由2017年前的60%迅速攀升到最新的90%以上 , 远远超过人的水平 , 人的水平为86.8% , 而准确率最高的神经网络是94.6% 。 它所使用的神经网络架构为一种称为Transformer的网络 , 叠加24次 , 形成一个深度大型的网络(BERT) , 并使用了兆级数量的词汇做训练 。 在其它常用的语义任务上 , 神经网络也都极大的提升了准确率 , 例如命名实体识别(NER)、关系识别、文本蕴含(textentailment)等 。
这些人工智能的科技突破 , 让许多以往计算机不能应用到的场景成为新的应用 。 在语音方面 , 企业存储的海量录音 , 以往是黑盒子 , 无法进行分析整理 。 不像结构化的数据 , 使用大型的数据库 , 可以做查询、统计、分析、图表化等工作 。 如今 , 可以经由语音识别成为文字 , 然后再经由语义理解做分析 , 产生实际的应用效益 。 接下来将对最新的语音、语义技术在人工智能科技的应用作案例分析 。 三、语音语义分析现行科技状况语音识别相对比较容易理解和定义 , 其任务就是将声音转成文字 , 而转化的效果可以简易的用字错误率来界定 。 但是识别的准确率与诸多因素相关 , 可以用人的体验来做比喻 , 因为人工智能基本就是模仿人的智能:l专业领域:如果在一个不同的专业领域 , 例如医学 , 许多的用语不是一般常用的 , 一个非医学专业的人士不容易理解这些医学的用语 , 做文字转化的也会出错 。 l口音/方言:严重的方言口音或是方言 。 l传播媒介:如电话信道 。 l背景声音:如吵杂的环境 。 这些都会影响识别的结果 , 就像人需要时间适应后才能听懂一个新环境里的对话交流 。 所以要降低语音转译的错误率 , 必须要能对专业或应用领域有足够的认识 , 熟悉地域的口音、方言等 。 普强的语音转译专注于固定领域来积累领域的专业话语 , 也同时积累了大量的语音覆盖了口音、方言、传播媒介特性、背景声音等因素 , 来优化语音转译的正确率 。 另一方面 , 语义理解任务相对的就比较不容易定义和理解 , 有一组学术界定义的语义理解相关的问题(GLUE):lCoLA:单句的二分类问题,判断一个英文句子在语法上是不是可接受的 。 lSST-2:单句的二分类问题,句子的来源于人们对一部电影的评价,判断这个句子的情感 。 lMRPC:句子对来源于对同一条新闻的评论 , 判断这一对句子在语义上是否相同 。 lSTS-B:这是一个类似回归的问题 , 给出一对句子 , 使用1~5的评分评价两者在语义上的相似程度 。 lQQP:这是一个二分类数据集 , 目的是判断两个来自于Quora的问题句子在语义上是否是等价的 。 lMNLI-m:语型内匹配 。 推断两个句子是意思相近,矛盾 , 还是无关的 。 lMNLI-mm:跨语型匹配 。 推断两个句子是意思相近 , 矛盾 , 还是无关的 。 lQNLI:也是一个二分类问题 , 两个句子是一个(question,answer)对 , 正样本为answer是对应question的答案 , 负样本则相反 。 lRTE:是一个二分类问题 , 类似于MNLI,但是数据量少很多 。 lWNLI:推断两个句子是意思相近 , 矛盾 , 还是无关的 。 lAX:QA型图像数据库 。 这些任务都有许多应用场景 , 但是语义理解的应用范畴也有很多不能直接应用这些任务 , 例如从一段对话文本中来判断一个人是否结婚 , 如下面的对话:A:您好 , 我想跟您谈下我们公司最近的一个产品的活动 , 这个产品能够......B:嗯 , 谢谢 , 不过我需要和我老婆商量商量....明显的从这段对话里 , 可以判定B是已经结过婚的人 。 再例如 , 服务业里常有禁忌的用语如:A-先听我说orA-是谁说orA-怎么知道orA-谁告诉你orA-有没有搞错orA-你弄错了orA-说重点orA-你必须orA-本来应该orA-这个部门很差劲orA-这个部门差劲orA-到底需要不需要orA-你不要跟我喊orA-你明白了吗orA-那您觉得呢orA-我说的很清楚了orA-刚才不是对你说了这样的语义理解应用均不是GLUE里面的任务能够直接应用的 , 并且在GLUE里表现良好的神经网络架构也不能保证在真实应用的场景里达到产生业务价值的效果 。 2018年底 , 谷歌发布了一种神经网络架构BERT , 一种基于Transformer架构的多层叠加的神经网络 , BERT提出两种版本 , 基本版(BASE)和大型版(LARGE) , 参数如下:BERTBASE:L=12,H=768,A=12,TotalParameters=110MBERTLARGE:L=24,H=1024,A=16,TotalParameters=34使用了3.3Giga的词汇作预训练 , 然后再按任务作微调训练 , 硬件使用了谷歌TPUV2.0的处理器 , BERT的基础版(BASE)需要16个TPU芯片 , BERT的LARGE版使用了64个TPU芯片 , 预训练需要4天 。


推荐阅读