OCR是什么?有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字 。
所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息 。
OCR的全称叫作“Optical Character Recognition”,即光学字符识别 。
这算是生活里最常见、最有用的AI应用技术之一 。
文章插图
细心观察便可发现,身边到处都是OCR的身影,文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等 。
OCR本质是图像识别,其包含两大关键技术:文本检测和文字识别 。
先将图像中的特征的提取并检测目标区域,之后对目标区域的的字符进行分割和分类 。
文章插图
关于EasyOCRPython中有一个不错的OCR库-EasyOCR,在GitHub已有9700star 。它可以在python中调用,用来识别图像中的文字,并输出为文本 。
?
https://github.com/JaidedAI/EasyOCR
?
文章插图
EasyOCR支持超过80种语言的识别,包括英语、中文(简繁)、阿拉伯文、日文等,并且该库在不断更新中,未来会支持更多的语言 。
文章插图
【这款Python 库 4行代码提取图片中的文字】
图片
安装EasyOCR安装过程比较简单,使用pip或者conda安装 。
pip install easyocr
如果用的PyPl源,安装起来可能会耽误些时间,建议大家用清华源安装,几十秒就能安装好 。使用方法EasyOCR的用法非常简单,分为三步:
- 1.创建识别对象;
- 2.读取并识别图像;
- 3.导出文本 。
找一张路标图片,保存到电脑:
文章插图
接着撸代码:
# 导入easyocrimport easyocr# 创建reader对象reader = easyocr.Reader(['ch_sim','en']) # 读取图像result = reader.readtext('test.jpg')# 结果result
输出结果:
文章插图
可以看到路标上的三个路名以及拼音都识别出来了!
识别的结果包含在元组里,元组由三部分组成:边框坐标、文本、识别概率 。
「关于语言:」
这段代码有一段参数['ch_sim','en'],这是要识别的语言列表,因为路牌里有中文和英文,所以列表里添加了ch_sim(简体中文)、en(英文) 。
可以一次传递多种语言,但并非所有语言都可以一起使用 。英语与每种语言兼容,共享公共字符的语言通常相互兼容 。
前文我们给出了EasyOCR支持的语言列表,并附有参数代号 。
「关于图像文件:」
上面传入了相对路径'test.jpg',还可以传递OpenCV图像对象(numpy数组)、图像字节文件、图像URL 。
再读取一张文字较多的新闻稿图片:
文章插图
# 导入easyocrimport easyocr# 创建reader对象reader = easyocr.Reader(['ch_sim','en']) # 读取图像result = reader.readtext('test1.jpg')# 结果result
文章插图
识别文字的准确率还是很高的,接下来对文字部分进行抽取 。
for i in result:word = i[1]print(word)
输出:
文章插图
小结该开源库是作者研究了几篇论文,复现出来的成果,真是一位实干家 。
检测部分使用了CRAFT算法,识别模型为CRNN,它由3个主要组件组成:特征提取,序列标记(LSTM)和解码(CTC) 。整个深度学习过程基于Pytorch实现 。
作者一直在完善EasyOCR,后续计划一方面扩展支持更多的语言,争取覆盖全球80%~90%的人口;另一方面支持手写识别,并提高处理速度 。
推荐阅读
- MySQL5.7数据库主从架构部署,你再也不用去问度娘了
- 快速掌握Python中的循环技术
- CENTOS Mysql5.7数据库自动安装脚本
- 大牛给初学者推荐的10个Python经典案例
- 怎样用3分钟搭建 Python 人脸识别系统
- 小白也可以用Python破解ZIP口令啦
- 临沧茶区,忙肺茶,2014年勐库戎氏忙肺古树茶生茶荣耀上市
- 临沧茶区双江勐库茶,临沧普洱茶茶区地理位置分布
- 冰岛茶是什么味,勐库冰岛茶历史悠久
- go语言操作PostgreSQL数据库