|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作


本文由《万物》杂志官方微信 “把科学带回家” 提供

|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文插图

撰文 七君
我们想要搜索某个网站、某条新闻 , 在搜索引擎里输入几个关键字就可以了 , 很方便 。 一些软件甚至可以通过拍照识别题目 , 然后给出解答 。 但是 , 在网上搜索某本书里的内容却很难 , 除非这本书已经被转成了电子版 。
如果能把市面上的书都变成电子版 , 那么几千年前古人的思想也能上线 , TA的言论和当代明星的发言一样可以通过网络被搜索到 。 古往今来的思想家一下子就在网络上“重生” , 鲁迅曰没曰过什么搜一下都能知道 , 这是一件利在千秋的好事呀 。

|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文插图

谷歌创始人也有这个心愿 , 联合创始人之一的谢尔盖·布林曾说:“人类几千年的知识 , 或许是最高质量的知识都在书本里 。 ”
2002年 , 谷歌启动了雄心勃勃的书籍数字化项目 Project Ocean , 想要创立一个全球最大的数字图书馆 。 谷歌的设想是 , 只需要一台能联网的电脑 , 你就可以搜索和阅读数千万本书籍 , 就和浏览网页一样方便 。

|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文插图

2004年 , 谷歌开始正式扫描 。 密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆纷纷加入了进来 。
2010年 , 谷歌宣布要扫尽全世界的1.2亿本书 。 根据2015年10月28日《纽约时报》的报道 , 谷歌已经扫描了超过2500万册书籍了 。
为了扫描这些书 , 谷歌年支出4亿美金 , 设立了专门的扫描中心 。 在这些扫描中心里 , 设置着专门的扫描架子 , 上面配有上千美元的光学镜头 , 还有用来探测书页曲率的光学雷达LIDAR 。

|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文插图

谷歌的7508978专利里采用的扫描技术 。
为什么不用传统的扫描仪呢?
【|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作】
因为一些书比较老旧 , 也比较厚 , 不能暴力压在扫描仪上扫 , 更不能拆开 , 只能自然摊开 。 因为这个原因 , 扫描完的书页其实是弯曲的 , 为了自动把页面捋直 , 谷歌还自主研发了一套技术 , 并申请了专利7508978 。
这个技术属于光学字符识别(Optical Character Recognition) , 可以理解为一种后期技术 。 谷歌的这个专利可以把弯折的书页自动铺平 , 并把图片里的文字转化为字符 , 让我们能够用关键词搜索到 。 随着这个项目技术的进步 , 一开始一本300页的书要40分钟扫完 , 现在已经可以做到一小时扫6千页了 。
|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文插图

看起来谷歌的扫书技术非常高大上 , 是吗?
其实 , 谷歌扫书设备并不是完全的自动化 , 有一个步骤还是需要手动 , 那就是翻书 。 人类操作员翻一页书 , 踩一下踏板 , 扫描设备就扫一次 。
本来这件事儿是谷歌的商业机密 , 但是后来被一位叫做 Andrew Norman Wilson 的艺术家曝光了 。
Wilson 说 , 他曾在2007年在谷歌加州的 Mountain View 园区工作过 , 那些负责书本扫描的员工的工牌颜色和正牌员工不一样 , 也不能享受他们的福利 , 比如骑谷歌自行车 , 免费员工餐 , 还有公司的班车 。 后来 , 他还专门把谷歌图书里出现的戴着套子的手指书页截图收藏了起来 , 大家来看看——

|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作


推荐阅读