人机交互过程拆解：是什么？怎么做？( 三 ) 编辑导读：AI改变了我们与机器互动的方

其实什么是声学模型呢？简单来讲就是一种刻画（拼音读法）韵母a、o、e ，声母b、p、m这些的模型，那这些模型是怎么来的？它是怎么知道这个字怎么读的呢？这个时候我们就需要输入一些音频训练集了，例如我们正常说话一段话，同时输入刚才说的那一段话的文本，机器会自动取出其中不同的因素，并且拿去继续训练模型，修正误区。
这样对于机器算法来说，有了输入和输出，还能不断优化自身模型。算法是不是很神奇。这些不同因素数据会先进行预处理，例如百度就做了一定的加噪处理，这样在噪声环境下鲁棒。
文章插图
其中语音识别模块除了声学模型之外还有一个同等重要的模块就是语言模块，什么叫语言模块呢？就是刻画文本和文本之间概率权重的。那么语言模型是怎么来的，假如我们要想做医学领域的语言模型，那就要让它去学习很多医学术语，这个时候就需要我们准备这些术语做成一个词表，但是同样需要数据清洗，原始数据会有些垃圾，在做一些权重的正规化，并送到模型中去训练，从而得出或者优化原有模型。简单说你提前给医学领域的专用术语背下来了，下次一听到相关的语音你就能记起来这个专用术语。
例如【板蓝根】，训练之后一听到这个语音就不会识别成【版烂根】
这样我们最终就能得到这个语音识别的模型，并且我们可以通过继续迭代来优化这个模型
既然模型有了，那怎么看好还是差呢？有几个方面来分辨。
文章插图
理想音频就是识别质量较好的情况，但是现实生活中语音识别往往回因为各种情况导致识别效果不佳，比如丢音，比如你按下手机麦克风按钮时，还没有启动录音你就开始说话了，那没启动时说的语音就被丢弃了，这种情况识别就差很多了，什么叫截幅呢？就是一般语音识别都是用两个字节来表示一个语音的取值范围，当你的增益太大就会被自动截掉，识别的效果也较差了。
回过头来，我们刚才所得到的语音训练模型只是一种特定情况下得到的语音模型，不具备普适性。为何这么说呢？
我们所得到的医学领域模型，假设是用手机录音采集的语料，那么这个模型就是近场识别模型，一旦同样的术语【板蓝根】你用手机询问就能回答正确，但是你一旦用音箱远场询问，那很可能就得出错误的回答，这叫声学一致性。
文章插图
同样，不同领域也需要文本一致性，你希望这个领域能多识别该领域的专业词汇那就需要多训练这个领域的核心词汇，否则就会出现【板蓝根】的情况。
文章插图
最后，通过不断的获取到不同的音频数据、文本数据，并继续迭代优化，我们会得到更好的模型，识别更准的效果。
这就是识别的细节，这也是一种科技的魅力，众多步骤完成了我们看似简单的动作。与其说机器的紧密不如说人类的身体系统更加复杂与奥妙。
本文由 @南国书生原创发布于人人都是产品经理，未经作者许可，禁止转载。
题图来自Unsplash ，基于CC0协议。

人机交互过程拆解：是什么？怎么做？( 三 )

推荐阅读

|职场的荣耀不要独揽要学会分享

中国演出行业协会发声“不打工男”

和男朋友有这样的一段对话后，该咋办

【晨永州】道县：刘军调研全县司法行政工作

溥仪|溥仪去相亲，女方看中一件凤袍，他却买不起，临走前留下了八个字

生姜干了还能吃吗生姜干掉了还能吃吗

现实中啥人啥事让你意识到“一开始认为是青铜，后来发现是王者”

经常吃辣条有什么危害,吃辣条的六大危害

经典搞笑qq留言搞笑QQ留言

青崖抱月|汽车突然卖不动的原因，关系大多数人，压在车主头上的三座大山

崇明区委组织部|崇明区堡镇：“四史”学习教育为“红色叶脉”注入强劲营养

不想随波逐流？想做个 "特立独行"者这三款SUV可以考虑

家里空调漏水怎么处理家里空调漏水怎么办

华为智能手机怎样节省网络流量手机上网怎样省流量

海外网|英高官：美国对英产品征税不可接受，将与美斗争

放荡的人生 iPhone12传来最新价，又心动了？，华为确认麒麟停产

|毛姆《人性的枷锁》，到底要摆脱多少枷锁才能轻装上阵？（下）

蒜香淡菜

宝马油电混合有哪些,车型推荐一下

寰寰聊时尚|卜今冠“黑化”了，穿黑色皮裙又酷又飒，不好惹的样子