想做一个简单的扫描笔,没有核心的OCR技术咋办
1、找一堆兼职,打字员月薪1万,然后搞台服务器,做个客户端,每次扫描,把图像发送到服务器,分配给在线客户端,让他们打码打出来,这叫做云计算哇2、安装office,调用Micorsoft Office Document Imaging (MODI)试试,应该可以很快出成品,参考老马这篇文章 http://www.comicer.com/stronghorse/water/software/officeocr.htm在简体中文Office 2003下OCR繁体中文、日文、韩文作者:马健邮箱:stronghorse@tom.com主页:http://stronghorse.yeah.net发布:2007.12.08目录一、引子二、系统配置 1、原理 2、实战 繁体中文配置 日文配置 韩文配置 简体中文配置三、其他讨论一、引子在简体中文Office 2003下用Micorsoft Office Document Imaging (MODI)做OCR的步骤为:先确保MODI已经正常安装。Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要改过来。在资源管理器里选中某个多页TIFF文件,从右键菜单选择用Micorsoft Office Document Imaging打开。打开后,先选择“工具-\u0026gt;选项”,对OCR选项进行设置。常规设置是去掉“自动拉伸”、“自动旋转”选项,再选择合适的语言。选择“工具-\u0026gt;将文本发送到Word”,在弹出的对话框中选择“所有页面”,“在输出时保持图片版式不变”,然后选择默认文件夹,点“确定”,即可开始OCR。OCR结束后,文本自动发送到Word。缺省格式是HTML,当然也可以另存为txt、doc。与其他商业OCR软件相比,MODI具有下列特点:支持多页TIFF。某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限的,我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。TiffToy合并时可以选择每合并多少个文件生成一个新文件。中文标点、文本段落保持得比较好,后期校对省了很多事。支持的语言比较多,Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言(如简体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。当然我并非语言天才,对于亚洲主要语言(中、日、韩)还算有所了解,其他语言一概无知,所以本文的讨论也仅限于这三国语言。提供开放的编程接口。对于软件开发人员来说,到微软网站下载一份MODI编程手册,即可开发出基于MODI的、具有多国语言OCR功能的软件。在正式开始讨论系统设置前,先透露一点技术背景:MODI所使用的中、日、韩OCR引擎,均为清华文通的OCR引擎。由于简体中文平台的GBK字符集完全覆盖繁体中文、日文,因此繁体中文、日文的OCR结果在简体中文Office环境下均为GBK编码,可以在支持GBK编码的中文平台下正常显示、编辑。当然如果觉得繁体中文看起来比较麻烦,也可以用Word的繁简转换功能,或TextForever的编码转换功能,将GBK繁体转换成GB编码的简体。但是对于韩文来说就没有这么美好了,因为目前GBK还不兼容韩文,所以韩文的OCR结果如果想在简体Office下编辑,大概只能存为HTML或doc文件,然后用Word编辑。MODI编程手册可以到这里下载:http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BC\u0026amp;displaylang=en二、系统配置1、原理要想让简体中文Office 2003能够OCR繁体、日文、韩文,需要做的工作包括两个方面:安装相关语言的OCR模块。MODI本身可以看作一个外壳,真正的OCR功能需要靠不同语言的模块实现。每个语言模块包括相关DLL文件和数据文件,需要复制到MODI的安装文件夹下。告诉MODI,目前有哪些语言的OCR模块可以使用。这个需要更改注册表,更改后在MODI的OCR选项里即可选择对应的语言。2、实战繁体中文配置找一台安装了繁体中文Office 2003的机器,进入MODI的安装文件夹,缺省为:C:\\Program Files\\Common Files\\Microsoft Shared\\MODI\\11.0将下面的文件复制到安装了简体中文Office 2003的相同文件夹下:TCCODE.UNITCPRINT.DATTCPRINT2.DATTCSERHT.DATTCTREE.DATTW_BU.DATTW_UB.DATTWBIG532.DLL复制完成后,用记事本创建一个reg文件,把下面内容粘贴后存盘:Windows Registry Editor Version 5.00"1028"=hex(7):28,00,26,00,48,00,42,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\\00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\\5f,00,31,00,30,00,32,00,38,00,3e,00,7d,00,60,00,45,00,4d,00,61,00,65,00,2c,\\00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\\3d,00,00,00,00,00双击此reg文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。在简体中文环境下,按照上述步骤设置后,用MODI识别出来的繁体中文是GBK编码的繁体字,可以用Word的繁简转换,或TextForever的编码转换功能 (支持批量)转换成GB编码的简体字。日文配置需要从日文MODI复制到简体MODI文件夹下的文件为:JPCODE.UNIJPPRINT.DATJPPRINT2.DATJPSERHT.DATJPTREE.DATTW_SU.DATTW_US.DATTWRECJ.DLLTWSJIS32.DLL需要导入的reg内容为:Windows Registry Editor Version 5.00"1041"=hex(7):30,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\\00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\\5f,00,31,00,30,00,34,00,31,00,3e,00,2e,00,61,00,45,00,4d,00,61,00,65,00,2c,\\00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\\3d,00,00,00,00,00配置成功后,在MODI的OCR选项卡里,“OCR语言”即可看到“日语”。在简体中文环境下,按照上述步骤设置后,用MODI识别出来的日文是GBK编码,可以在支持GBK字符集的简体中文环境下正常显示、编辑。韩文配置需要从韩文MODI复制到简体MODI文件夹下的文件为:DATASIM.DATHANGULLB.DATKRCODE.UNIKRDIST.DATKRPRINT.DATKRSERHT.DATKRTREE.DATTW_KU.DATTW_UK.DATTWCUTCKR.DLLTWCUTLKR.DLLTWKSC32.DLLTWLAYKR.DLLTWRECK.DLL需要导入的reg内容为:Windows Registry Editor Version 5.00"1042"=hex(7):31,00,5d,00,67,00,41,00,56,00,6e,00,2d,00,7d,00,66,00,28,00,5a,\\00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\\5f,00,31,00,30,00,34,00,32,00,3e,00,30,00,61,00,45,00,4d,00,61,00,65,00,2c,\\00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\\3d,00,00,00,00,00配置成功后,在MODI的OCR选项卡里,“OCR语言”即可看到“朝鲜语”。在简体中文环境下,按照上述步骤设置后,用MODI识别出来的韩文是韩文编码(charset:129),可以存为HTML、doc,并能在Word里正常显示、编辑。如果存为TXT,则不能在简体中文环境下显示、编辑。简体中文配置如果需要在繁体中文环境下OCR简体中文,最正宗的方法是下载、安装一个简体MODI:http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6\u0026amp;displaylang=zh-tw当然如果想省事,也可以复制下列文件:SCCODE.UNISCPRINT.DATSCPRINT2.DATSCSERHT.DATSCTREE.DATTW_GU.DATTW_UG.DATTWGB32.DLL需要导入的reg内容为:Windows Registry Editor Version 5.00"2052"=hex(7):4d,00,6a,00,33,00,47,00,51,00,66,00,5e,00,62,00,54,00,3f,00,42,\\00,3f,00,56,00,50,00,24,00,5e,00,62,00,53,00,6c,00,6c,00,3e,00,25,00,6d,00,\\45,00,4d,00,61,00,65,00,2c,00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,\\00,40,00,45,00,50,00,69,00,3d,00,00,00,00,00
■网友的回复
?(′???)?哪里简单了
推荐阅读
- 怎样做到对一个人视而不见
- 作为一个女人是一种啥样的体验
- 我一个本科毕业生,做了公司文员,聘请的心理学博士下周三到医院,让我全程陪同,应该做那些准备
- 在一个很差的高中渐渐丧失了斗志,甚至不想读书了咋办
- 你最欣赏一个人具有啥特质其特质是不是可以后天培养、
- 暗恋一个人该怎样是好
- 身上一直不能被别人触碰的敏感部位(肚子和腰),居然有一个人例外,这是啥原因
- 一个男人对一个女人说总觉的她特别让人心疼是出于啥心理
- 有没有哪一个瞬间让你崩溃,并且想逃离这个世界?
- 徒劳一场是啥意思