模型|8.6M超轻量中英文OCR模型开源，训练部署一条龙 | Demo在线可玩( 二 ) 一条龙|Demo|部署

文章图片

除此之外，开发人员还采用减小特征通道数等策略，进一步对模型大小进行了压缩。
模型虽小，但是训练用到的数据集却一点也不少，根据项目方给出的数据，模型用到的数据量（包括合成数据）大约在百万到千万量级。

文章图片

但是也有开发者可能会问，在某些垂类场景，通用OCR模型的精度可能不能满足需求，而且算法模型在实际项目部署也会遇到各种问题，应该怎么办呢？

文章图片

PaddleOCR从训练到部署，提供了非常全面的一条龙指引，堪称「最全OCR开发者大礼包」。
「最全OCR开发者大礼包」

文章图片

△礼包目录，堪称业界最全
支持自定义训练
OCR业务其实有特殊性，用户的需求很难通过一个通用模型来满足，之前开源的Chineseocr_Lite也是不支持用户训练的。
为了方便开发者使用自己的数据自定义超轻量模型，除了8.6M超轻量模型外， PaddleOCR同时提供了2种文本检测算法（EAST、DB）、4种文本识别算法（CRNN、Rosseta、STAR-Net、RARE），基本可以覆盖常见OCR任务的需求，并且算法还在持续丰富中。
特别是「模型训练/评估」中的「中文OCR训练预测技巧」，更是让人眼前一亮，点进去可以看到「中文长文本识别的特殊处理、如何更换不同的backbone等业务实战技巧」，相当符合开发者项目实战中的炼丹需求。

文章图片

打通预测部署全流程
对开发者更友好的是， PaddleOCR提供了手机端（含iOS、Android Demo）、嵌入式端、大规模数据离线预测、在线服务化预测等多种预测工具组件的支持，能够满足多样化的工业级应用场景。

文章图片

数据集汇总
项目帮开发者整理了常用的中文数据集、标注和合成工具，并在持续更新中。
目前包含的数据集包括：

5个大规模通用数据集（ICDAR2019-LSVT ， ICDAR2017-RCTW-17 ，中文街景文字识别，中文文档文字识别， ICDAR2019-ArT）
大规模手写中文数据集（中科院自动化研究所-手写中文数据集）
垂类多语言OCR数据集（中国城市车牌数据集、银行信用卡数据集、验证码数据集-Captcha、多语言数据集）

还整理了常用数据标注工具（labelImg、roLabelImg、labelme）、常用数据合成工具（text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText）
并且开源以来，受到开发者的广泛关注，已经有大量开发者投入到项目的建设中并且贡献内容。

文章图片

真·干货满满。

文章图片

体验一下？
看到这里，你心动了吗？如果还想眼见为实， PaddleOCR已经提供了在线Demo ，网页版、手机端均可尝试。
感兴趣的话收好下面的传送门，亲自体验起来吧~
传送门：
项目地址：
https://github.com/PaddlePaddle/PaddleOCR
网页版Demo：
https://www.paddlepaddle.org.cn/hub/scene/ocr
移动端Demo：
项目组为开发者在百度大脑EasyEdge上开放了基于飞桨轻量化推理引擎Paddle Lite实现的APP demo 。
【模型|8.6M超轻量中英文OCR模型开源，训练部署一条龙 | Demo在线可玩】iOS版本由于证书限制，需要登录百度EasyEdge网页扫码体验：https://ai.baidu.com/easyedge/app/openSource?from=paddlelite