一张估值20亿的“笑脸”,正在拆掉OpenAI的围墙( 二 )


当时Hugging Face的想法是基于自然语言处理 (NLP) 的人工智能技术,来为年轻人们开发一个带有娱乐性、类似于电子宠物一样的个性化聊天机器人,让大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情 。
这种新颖的人机社交模式得到了一些关注 。2017年3月9号,Hugging Face App在IOS App Store正式推出,并拿到了包括SV Angel、NBA球星杜兰特在内的120万美元的天使投资 。此后一年多,Hugging Face都一直围绕着自己的聊天机器人业务在做着自然语言理解的相关训练并发布相关的产品,高峰时期每天处理的消息数量达到了1百万条 。在2018年5月,它又获得了400万美元的种子轮融资 。

一张估值20亿的“笑脸”,正在拆掉OpenAI的围墙

文章插图
Hugging Face聊天软件界面
虽然发展的还算不错,但由于当时的人工智能的理解能力和聊天水平远不及ChatGPT这样智能有趣,再加上并非刚需的业务场景,Hugging Face的规模一直都难以扩大 。
但为了开发这个聊天机器人,Hugging Face的团队做了一个很重要的事,那就是构建了一个底层库来容纳各种机器学习模型和各种类型的数据集 。包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等,并且在GitHub上始终以开源项目的形式持续发布该底层库的一些内容 。
就这样不温不火地发展了一段时间后,2018年底,Hugging Face迎来了一个重要的转折 。
当年11月,谷歌宣布推出基于双向 Transformer 的大规模预训练语言模型BERT,瞬间成为了自然语言理解领域最受开发者关注的模型 。但一开始,google只发布了BERT的TensorFlow版本,Hugging Face就想为啥没有Pytorch版本呢?于是Hugging Face创始人之一的Thomas Wolf就用几天的时间完成并开源了PyTorch-BERT,但没想到,就是这么一个“无心插柳”的项目让Hugging Face一炮而红 。
借着BERT的东风,Hugging Face的Pytorch-pretrained-BERT发布3个多月后,快速达成了在Github上5000+ 星标的成就,到了7月份其Star数量已经超过了1万,发展速度远超其他同类开源项目,在Github的AI项目领域里一飞冲天 。
在这样的发展势头下,Hugging Face的产品战略开始发生了调整 。他们将更多精力放到了开源模型的建设上,将 Pytorch-pretrained-BERT项目正式命名为Transformers,同时支持Pytorch和Tensorflow 2.0 。
借助 Transformers库,开发者可以快速使用BERT、GPT、X.NET、T5 、DistilBERT等NLP大模型,并使用这些模型来完成文本分类、文本总结、文本生成、信息抽取、自动QA等任务,节省大量时间和计算资源,此后Hugging Face在人工智能开源领域的名气也越来越大 。
一张估值20亿的“笑脸”,正在拆掉OpenAI的围墙

文章插图
Hugging Face在Github上的Star曲线,图片来自于Lux Capital到了2019年12月,Hugging Face拿到了由Lux Capital 领投的A轮融资,融资额也比上一轮上了一个量级达到了1500万美元 。值得注意的是,从这一轮开始,Hugging Face的标签开始不再是聊天机器人,而是把AI开源业务放在了首位 。这张可爱的笑脸emoji也开始被广大人工智能开发者们所熟知 。
|朝着人工智能界的Github前进
在2019年底All in AI开源之后,Hugging Face开始着手构建一套完整的开源产品矩阵 。用Hugging Face自己的话来讲,他们所做的事情,就是要架起人工智能科研和应用的桥梁(bridges the gap from research to production) 。
过去这些年,人工智能领域的科研和商业应用是相对独立的两个板块,科研部门的任务就是对前沿技术进行研究,搞模型、发论文,应用部门的人则是要将最新技术用到产品中探索商业变现 。如何将科研成果进行系统性的整合成为开源产品,让开发者们能够很快上手去应用转化是长期困扰业界的一个问题 。
Hugging Face之前歪打正着地摸到了这个痛点,接着开始认真向下挖掘 。简单来说,Hugging Face就是承担了人工智能科研走向应用这个过程中几乎所有复杂、繁琐、细碎的工作,然后方便任何人工智能从业者都可以去便捷地使用这些研究模型和资源 。
目前,除了头号产品Transformers之外,Hugging Face还建立了Tokenizers、Datasets、Accelerate等库,从模型到数据集、从托管平台到性能优化,以开源社区为载体,Hugging Face已建立起了完整的人工智能开发生态,涵盖了 NLP、计算机视觉、语音、时间序列、生物学、强化学习等各个领域 。
值得注意的是,Hugging Face并不是因为ChatGPT带火的 。2022年5月,当市场的注意力都还停留在Web3、元宇宙之上时,Hugging Face拿到了有红杉、Lux Capital参与的1亿美元融资,让其估值一举突破了20亿美元 。


推荐阅读