而到了2012年,AlexNet不但赢了第一名,而且在识别准确率方面超过第二名10%,相当于百米短跑我第一名冲线,而且我不但冲线了,我还在终点吃了顿饭,然后第二名才刚刚跑完全程 。这种碾压式的胜利让业界对这场赛事的评论纷纷变成了B站的弹幕,概括来说就一句话:大人,时代变了 。
当然了,前面这段讲得很戏剧化,也有很多人喜欢用“石破天惊”之类的词来形容,但应该说,深度学习并不是什么凭空出现的新技术,它是由机器学习下面的神经网络模型发展而来的 。
人工智能、机器学习和深度学习三者之间千丝万缕的关系,我们在前面的文章已经进行了细致的介绍,不再赘述,但深度学习的崛起,确实给OCR的应用注入了全新的活力 。
深度学习很快火遍全球,有意思的是,很多面向初学者的深度学习教程不约而同选择了将使用深度学习模型识别MNIST手写数据集作为深度学习领域的“Hello World”,从前极为困难的验证码识别,在深度学习时代居然变成了初学者的第一堂功课,这是深度学习与OCR结合最为成功的案例 。从此,OCR展翅飞出象牙塔,飞入寻常百姓家 。
不过,我还是想特别说明一下,OCR是一项通用性非常强的技术,OCR与深度学习的结合逼得12306改验证码机制,这只是OCR技术的能力展示,OCR活跃的天地远比验证码广阔得多,我们的机器距离我们的生活差的最后一公里,可能就有赖OCR来打通 。
你可能会问,机器和生活还差最后一公里,我怎么没感觉到,这是什么意思?
文章插图
回想一下,我们现在的生活其实是有两套并行记录体系,就拿最常见的去银行办理业务来说吧,我们先得用笔手工填写一份纸质的表格,上面包含了各项信息,这是一套记录体系 。然后我们给银行柜台的工作人员提交表格,工作人员会让我们先等一会,等什么呢,就是等工作人员通过电脑终端把信息转录到另一套记录体系 。
现代银行基本都依靠各类信息系统进行管理,但这些信息系统是不能直接读取纸质表格的信息,那怎么办呢,只好通过人来转录,这个转录的过程免不了需要消耗人的时间和精力,增加了办理业务的成本,甚至成为限制提升业务办理效率的瓶颈之一 。
两套并行记录体系对我们的影响当然远不止于银行,从更为宏观的视角来看,消耗了人类社会大量的人力物力,以及对于人来说更为宝贵的时间 。
你可能又要说了,这些都是窗口业务,和日常生活关系并不紧密 。其实不然,举一个我们很熟悉例子,二维码 。
就拿春晚的观众互动来说吧,过去主持人是说想要和春晚互动的观众朋友,可以把信息发到屏幕下方公布的号码 。那么,观众如果真要互动,就必须得把在屏幕上看到的这串长长的数字逐个逐个敲进手机,光是想就觉得麻烦,再加上有时候看错或者敲错,感觉就更费劲了 。
现在有了二维码,主持人说想要和春晚互动的观众朋友,扫描屏幕下方的二维码就可以了,操作起来就简单太多了 。所以,现在满大街都是二维码,就是因为二维码更为便捷 。
不过,二维码只能解决两套记录体系并行问题的很小一部分,其它手段譬如内置芯片也只能治标不治本,毕竟我们人类社会几千年来都以纸作为信息的记录介质,已经产生了太多不可能符合机器读取要求的信息,要从根本上解决两套记录体系并行的问题,还是需要机器具备和人一样的“看图识字”的能力,也就是最终还得依靠OCR 。
文章插图
那么,现在的OCR技术发展到什么水平,又解决了什么实际问题了呢?
我认为,一项应用技术最重要的不是听起来有多前沿多高端,而是能解决什么实实在在的问题 。我们说OCR突飞猛进,是因为OCR和深度学习结合以后,只需要简单拍照,就可以直接从图片中提取相应的文字,在很多应用场景已经有点“扫码即可”的意思了 。
很多纸质的表格,譬如前面说的银行各类业务的表格,现在只需要简单地拍照就可以一下完成信息录入 。以前我们拿到纸质名片,还需要手工敲字记录,现在很多App都提供一项功能,只要对名片进行拍照,就能自动提取上面的文字 。
同时,OCR带来的不仅仅是简化录入,很多传统的软件功能,也因为OCR技术的发展,而带来了全新的使用体验 。就说我印象最深的翻译软件,翻译软件当然不是什么新产品,大家应该都用过 。
推荐阅读
- php获取远程页面html状态码的方法
- 2022年北京行程码带星号的可以下高速吗,为什么行程卡突然带星号了
- 账号密码记在哪里安全 账号与密码管理
- 智能手机|扬州姑娘上海一游的手机找到了 怕红码随机附证明:网友点赞暖心正能量
- 30段极简Python代码:这些小技巧你都Get了么
- 计算机编码ASCII、GBK、Unicode、UTF-8和URL编码的区别
- 10行PHP代码快速获取小程序openid
- 刷票在淘宝怎么买 12306官网抢票神器
- 60行C代码实现一个shell
- 阿里P7架构师浅析:如何优化Java程序设计、编码提高性能