创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活( 二 )


人在输入验证码的10秒钟里 , 大脑精确运行着 , 这甚至是电脑所无法匹敌的 。 怎样才能让这10秒钟的工作变得有意义呢?有没有什么目前电脑无法解决 , 但是可以分割成仅用10秒就能解决的难题呢?


Luis想到了一个点子——书籍数字化 。


市面上有很多书籍数字化的项目 , 包括亚马逊的Kindle和谷歌都有这些需求 。 从一本旧书开始 , 首先扫描 , 相当于把每一页照一张数码照片 , 这样就有了这本书每一页的文字内容 。 下一步 , 电脑需要解读这些照片上的每一个字 。


这就涉及到了OCR(Optical Character Recognition)技术 , 也就是光学字符识别 。 但光学字符识别的技术并不是万能的 , 统计显示 , 五十年前的书 , 有30%的单词电脑都无法识别 。 特别对于那些墨水褪色、书页又泛黄的旧书 。


于是
Luis利用技术摘录出那些电脑无法识别的单词 , 这样广大用户在网上输入验证码时 , 就能将其识别出来 。



创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活
文章图片

但你要说了 , 这怎么能知道用户输入的就是正确答案呢?


Luis为此加入了双单词识别 。



其中一个单词A是电脑无法识别的单词——因为系统不认识这个单词 , 所以无法判断输入者的答案 。




另一个单词B是系统已经识别的单词——但系统不会告诉你哪个是已知哪个是未知 。


当用户输入两者的时候 , 如果能拼写正确系统已认知的那个单词B , 那么就判断该用户为真人 , 同时 , 对于单词A , 只要有10个人输入了相同的单词 , 那么这个词就确定无误了 。



创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活
文章图片


你以为你输入的仅仅是验证码 , 但其实你在免费帮忙录入陈旧的电子书 。



【创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活】成功后再创业:

让3亿人学习语言的同时免费做翻译


如今的Luis的新身份 , 是全球语言学习程序Duolingo的联合创始人 。


Luis发现 , 互联网的大部分语言是英语 。 YouTube上耶鲁大学的课程、科普视频、Amazon的书籍、新闻网站、博客等等 , 基本都是英语 ,
这意味着只有懂英语才能使用这些网站 。
就算世界上有4.37亿人说西班牙语 , 但西班牙语版的维基百科词条数量也只是英语的20% 。


当然 , 一些网站还有其他几种不同的主流语言 , 但如果用户那几种也不会 , 就没办法使用 。




那他们怎么办呢?解决办法是——复制粘贴到翻译网站 。 在今天 , 机器翻译虽然已经得到广泛应用 , 但准确度不够高 , 这个问题可能在未来短期之内都没办法很好地解决 。


Luis认为 , 网站翻译的工作还是需要人来完成 。 但摆在面前的有几大问题:


  1. 可以找专业翻译人员来做 , 但是这样成本非常高 。 就拿翻译维基百科里面有20%的西班牙语内容来说 , 如果把他们翻译成英语 , 就得至少五千万美元——这还是针对服务最便宜的外包国家 。


    推荐阅读