12306验证码为什么那么变态？都是这项深度学习应用给逼的( 三 ) _12306

但一直以来使用翻译软件都有一个限制，那就是不管软件本身的翻译能力有多强，你得先录入原文然后才能看到译文，这有一个什么问题呢？有一些外语的原文我不知道怎么通过英文键盘输入，譬如日文、德文、法文，相信不是专门学这些语言的朋友都有和我同样的困扰。
现在有了OCR就方便多了，只需要直接拍照就能提取文字，不但解决了输入问题，效率还要高得多，有些翻译软件干脆就在原图上P上译文，更加直接明了，让我对翻软件有一种耳目一新的感觉。
除了翻译软件，OCR给我们熟悉的产品带来的改变还有很多，毕竟只要可以从图片中准确提取文字，就有太多的地方等待着我们发挥广阔的想象力。譬如说，通过OCR技术，即使是扫描生成的PDF也支持文本搜索了。
如果觉得这个例子太小，那就说搜索引擎，现在的搜索引擎还笨得很，输入文字只能搜到文字，输入图片只能搜到图片，文字和图片是泾渭分明，如果你想用文字搜带有这段文字的图片呢？对不起不行。
不过使用了OCR，以后也可以以文搜图了。譬如你翻老照片时找到一张你光着屁股坐在一块写着一段文字的石头上，你想知道这张照片在哪拍的。可是现在你去搜这段文字，很可能要么就什么都找不到，要么就找到一大堆无关的内容。
未来如果搜索引擎支持搜索图中文字的功能，你就能马上找到带有这段文字的其它照片，没准其中就有你想要找的内容。

文章插图

OCR就介绍到这里，相信大家对于OCR是什么，能做什么，未来会有怎样的发展已经有了初步的了解。可是，OCR技术的原理是什么，传统的做法是什么，现在和深度学习又是怎样结合在一起？
我推荐大家阅读前面提过的这本专门介绍这些问题的书，《深度实践OCR：基于深度学习的文字识别》。这本书对OCR的介绍很全面，先从OCR的发展历程和经典的技术原理说起，然后介绍了深度学习的主要技术，最后再仔细介绍OCR和深度学术如何结合，而且还对如何通过代码实现进行了详细说明。看完这本书，对OCR的全貌、原理和应用，应该就能有比较清晰的了解。