创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活( 二 )
人在输入验证码的10秒钟里 , 大脑精确运行着 , 这甚至是电脑所无法匹敌的 。 怎样才能让这10秒钟的工作变得有意义呢?有没有什么目前电脑无法解决 , 但是可以分割成仅用10秒就能解决的难题呢?
Luis想到了一个点子——书籍数字化 。
市面上有很多书籍数字化的项目 , 包括亚马逊的Kindle和谷歌都有这些需求 。 从一本旧书开始 , 首先扫描 , 相当于把每一页照一张数码照片 , 这样就有了这本书每一页的文字内容 。 下一步 , 电脑需要解读这些照片上的每一个字 。
这就涉及到了OCR(Optical Character Recognition)技术 , 也就是光学字符识别 。 但光学字符识别的技术并不是万能的 , 统计显示 , 五十年前的书 , 有30%的单词电脑都无法识别 。 特别对于那些墨水褪色、书页又泛黄的旧书 。
于是
Luis利用技术摘录出那些电脑无法识别的单词 , 这样广大用户在网上输入验证码时 , 就能将其识别出来 。
文章图片
但你要说了 , 这怎么能知道用户输入的就是正确答案呢?
Luis为此加入了双单词识别 。
▍
其中一个单词A是电脑无法识别的单词——因为系统不认识这个单词 , 所以无法判断输入者的答案 。
▍
另一个单词B是系统已经识别的单词——但系统不会告诉你哪个是已知哪个是未知 。
当用户输入两者的时候 , 如果能拼写正确系统已认知的那个单词B , 那么就判断该用户为真人 , 同时 , 对于单词A , 只要有10个人输入了相同的单词 , 那么这个词就确定无误了 。
文章图片
你以为你输入的仅仅是验证码 , 但其实你在免费帮忙录入陈旧的电子书 。
【创造了「验证码」的他,总有办法让全世界数亿人免费帮他干活】成功后再创业:
让3亿人学习语言的同时免费做翻译
如今的Luis的新身份 , 是全球语言学习程序Duolingo的联合创始人 。
Luis发现 , 互联网的大部分语言是英语 。 YouTube上耶鲁大学的课程、科普视频、Amazon的书籍、新闻网站、博客等等 , 基本都是英语 ,
这意味着只有懂英语才能使用这些网站 。
就算世界上有4.37亿人说西班牙语 , 但西班牙语版的维基百科词条数量也只是英语的20% 。
当然 , 一些网站还有其他几种不同的主流语言 , 但如果用户那几种也不会 , 就没办法使用 。
那他们怎么办呢?解决办法是——复制粘贴到翻译网站 。 在今天 , 机器翻译虽然已经得到广泛应用 , 但准确度不够高 , 这个问题可能在未来短期之内都没办法很好地解决 。
Luis认为 , 网站翻译的工作还是需要人来完成 。 但摆在面前的有几大问题:
- 可以找专业翻译人员来做 , 但是这样成本非常高 。 就拿翻译维基百科里面有20%的西班牙语内容来说 , 如果把他们翻译成英语 , 就得至少五千万美元——这还是针对服务最便宜的外包国家 。
推荐阅读
- 鲜闻快讯|00后人气最高的4位歌手,王源、周震南没啥,20岁的他才是最爱!
- 段艺璇|《创造炙热的青春》周报,孙芮陆婷“神仙打架”,段艺璇还在蛰伏
- 镜头|《创造营2020》林君怡下期镜头拉满,她是总决赛第七顺位最终人选
- 陈卓璇|《创造营2020》成团倒计时,四人逆袭出道获力挺,陈卓璇名列榜首
- 选手|创造营2020总决赛,15强选手最终大排名大预测
- 娱乐最小编|《创造炙热的青春》周报,孙芮陆婷“神仙打架”,段艺璇还在蛰伏
- 华为|英政府禁用华为引争议,“将致英国创造力停滞数十年”
- 武磊|武磊告别西甲:49场8球+绝平巴萨 欧联破门创造历史
- 撑腰|创造营更新撑腰力榜,王艺瑾前五,张艺凡掉出成团位,第一稳了
- 1月份被爆出轨的他,这就火速复出了……