|谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

本文由《万物》杂志官方微信 “把科学带回家” 提供

本文插图

撰文七君
我们想要搜索某个网站、某条新闻，在搜索引擎里输入几个关键字就可以了，很方便。一些软件甚至可以通过拍照识别题目，然后给出解答。但是，在网上搜索某本书里的内容却很难，除非这本书已经被转成了电子版。
如果能把市面上的书都变成电子版，那么几千年前古人的思想也能上线， TA的言论和当代明星的发言一样可以通过网络被搜索到。古往今来的思想家一下子就在网络上“重生” ，鲁迅曰没曰过什么搜一下都能知道，这是一件利在千秋的好事呀。

本文插图

谷歌创始人也有这个心愿，联合创始人之一的谢尔盖·布林曾说：“人类几千年的知识，或许是最高质量的知识都在书本里。 ”
2002年，谷歌启动了雄心勃勃的书籍数字化项目 Project Ocean ，想要创立一个全球最大的数字图书馆。谷歌的设想是，只需要一台能联网的电脑，你就可以搜索和阅读数千万本书籍，就和浏览网页一样方便。

本文插图

2004年，谷歌开始正式扫描。密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆纷纷加入了进来。
2010年，谷歌宣布要扫尽全世界的1.2亿本书。根据2015年10月28日《纽约时报》的报道，谷歌已经扫描了超过2500万册书籍了。
为了扫描这些书，谷歌年支出4亿美金，设立了专门的扫描中心。在这些扫描中心里，设置着专门的扫描架子，上面配有上千美元的光学镜头，还有用来探测书页曲率的光学雷达LIDAR 。

本文插图

谷歌的7508978专利里采用的扫描技术。
为什么不用传统的扫描仪呢？
【|谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作】
因为一些书比较老旧，也比较厚，不能暴力压在扫描仪上扫，更不能拆开，只能自然摊开。因为这个原因，扫描完的书页其实是弯曲的，为了自动把页面捋直，谷歌还自主研发了一套技术，并申请了专利7508978 。
这个技术属于光学字符识别（Optical Character Recognition），可以理解为一种后期技术。谷歌的这个专利可以把弯折的书页自动铺平，并把图片里的文字转化为字符，让我们能够用关键词搜索到。随着这个项目技术的进步，一开始一本300页的书要40分钟扫完，现在已经可以做到一小时扫6千页了。

本文插图

看起来谷歌的扫书技术非常高大上，是吗？
其实，谷歌扫书设备并不是完全的自动化，有一个步骤还是需要手动，那就是翻书。人类操作员翻一页书，踩一下踏板，扫描设备就扫一次。
本来这件事儿是谷歌的商业机密，但是后来被一位叫做 Andrew Norman Wilson 的艺术家曝光了。
Wilson 说，他曾在2007年在谷歌加州的 Mountain View 园区工作过，那些负责书本扫描的员工的工牌颜色和正牌员工不一样，也不能享受他们的福利，比如骑谷歌自行车，免费员工餐，还有公司的班车。后来，他还专门把谷歌图书里出现的戴着套子的手指书页截图收藏了起来，大家来看看——

|谷歌是怎样扫描2500万本书的？出错图片揭开了谷歌的土味操作

推荐阅读

平板电脑想买一个平板看课件，看网课，那么air3是完全能够满足需求的

【新春走基层·红红火火过大年】快递小哥韩飞：顾客点赞，是最好

男子身份证丢失莫名多了5个手机号，移动营业厅拒绝直接注销

豆腐烧鱼

范冰冰|林心如点赞范冰冰专辑新封紫薇金锁隔多年再营业

「疫情中失学的肯尼亚女童」疫情中失学的肯尼亚女童：剧增的割礼、童婚、怀孕

静静时尚达人|黑色印花旗袍穿出“惊艳”感，灵动俏皮，郁可唯复古造型上线

美国|表演到位！布拉德·皮特扮福奇获艾美奖提名

地震|凡人英雄！男子地震时放弃逃生拉闸泄洪：救了几百人

全国能源信息平台河南能源党委书记、董事长刘银志到中原银行走访

开一家炸串店利润如何,炸串店能挣多少钱-

「江宁」一对夫妻家中遇害五日后被发现，17岁女儿躲过一劫

哺乳期间奶水突然变少是什么原因,为什么哺乳期有时候奶水多有时候奶水少-

Dynatrace在托管多个JVM的机器上报告的内存饱和错误的解决方案

老人骑电动三轮强闯高速，迷路后掉头逆向行驶

2021春运高峰火车票可以提前几天买现在春运火车票可以提前多久买

穿内衣就算了，输血管也忍了，但这个戴口罩的，真把观众当傻子？

女队|AG超玩会景慧正式连接？AG女队拒绝景慧的加入，她用其他方式打脸AG

古人是咋解释同性恋这一现象的

上海“早餐工程”再升级：一辆流动餐车的投资超过一家实体店