关于图片里的文本识别,哪些特征相对有效

这问题应该可以分好多情况,想哪说哪了。不过首先从稍理论方面讨论一下这个问题,再针对文字识别这个具体应用分情况说下回答下题主的问题。(手机排版,略凌乱,勿怪) 模式识别这个学科,本质上是从已有样本总结规律,然后判断新样本的问题。若样本的类别已知,刚称为有监督,一般文字识别是有监督的问题,所以只讨论有监督模式识别这个问题,为了简略,下称该问题为PR(Pattern Recognition)。对于PR,已有的样本很称为训练样本,未知的样本称为测试样本。这两种样本间的关系很重要,一般我们认为的是训练样本能够反应出其所在类别内或者类别间的关系,这也是整个模式识别的基础。这可能略抽象,举个例子说明一下:如果我们训练电脑来识别一个电视的角色扮演者是不是刘德华,我们就应该拿刘德华的各种剧照来告诉电脑这是刘德华,然后让电脑来识别新的剧照。如果我们拿到刘德华所有的剧照,那一般来说新来的照片电脑就能做出正确的判断,这是最好的情况;如果我们训练时只有刘德华一部分剧照,那这就要考验算法的推广性了;要是我们拿马德华的照片来训练,而用刘德华的照片来测试,那这时候算法和电脑就都被玩死了。 上面脑洞开得略大,但大体反映了训练样本和测试样本的关系。下面就从这个点来回答题主的问题:1. 固定字体的印刷体情况。如上面回答的冠字码识别,这个从理论上来说是字体没变化的,若不存在的拍摄角度带来的透视失真和噪声的问题,那这个问题即使用模板匹配的方法也能得到很好的结果。若考虑到噪声,一些简单的结构特征,如字符边缘到其最小外接矩形的矩离、穿越线等,加上一般的矩离分类器,就应该可以得到过得去的结果。应考虑到透视失真,那就是another story,我们后面再讨论。2. 多字体印刷体情况。这就是一般扫描文档识别的问题,我感觉也不用太复杂的特征,一些结构特征加上kNN就可以了,应该不用如HoG,Gabor等特征。但对于有旋转的情况,一般需要在预处理中有相应的应对办法。3. 手写文字识别情况。印刷体和手写体文字感觉就是两个问题,这主要是由我们上述训练样本和测试样本关系导致的。手写体文字识别因个体书写习惯差异使得其对算法要求更高,一般用的特征有方向线素(类似于HoG),Gabor,小波等。当然,实际上预处理对手写文字识别也有很重要的影响,比如归一化,将大大减少因书写习惯带来的类间离散度。而在分类器上,也有很多选择,如SVM,MQDF,神经网络等。4. 自然环境文字识别。这个是个很困难的问题,首先定位就很困难,然后因为拍摄带来的几何失真,光照不均匀等,都为识别带来了难度。这方面看的比较少,以后看到了再来补充。总得来说,这个问题不能一概而论,与具体应用有关。
■网友
【关于图片里的文本识别,哪些特征相对有效】 关于深度学习的理解楼上已经有比较详细的解答,这里想补充一下
以网易易盾智能反垃圾服务(网易易盾-极速智能的反垃圾云服务)为例,下图是网易易盾处理色情图像的流程图:
关于图片里的文本识别,哪些特征相对有效

其中整个信息处理的最关键过程是在违禁图像识别系统,系统高效将海量信息进行分类判断,并不断自我学习,趋近最优效果。
我们知道,训练小狗去接飞盘的过程,通过大量反复并带有奖惩机制的训练,小狗最终会接住主人各种姿势抛出的不同空间位置的飞盘,并且愈加熟练。
网易易盾训练图像识别系统也是类似的道理。通过不断优化迭代图像算法,不断给机器标注新的图片样本,让机器来学习更有用特征,形成更优记忆模型。机器再处理新内容时就会跟现有模型做比较匹配,看内容是否含有记忆模型中的色情特征。如果含已有特征那就判定为色情。如果是无法判定的新特征,那就继续标注丢给机器消化,消化完之后,机器记住这个新特征,就又聪明了一点。


推荐阅读