搅动100亿美金的ChatGPT,竟然这么依赖TA?


搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
新智元报道
编辑:Aeneas 好困
【搅动100亿美金的ChatGPT,竟然这么依赖TA?】【新智元导读】搅动了百亿美金市场的ChatGPT,再一次证明了:AIGC,将在2023年给我们的生活带来革命性的剧变 。
这几天, 「微软砸下百亿美金注资OpenAI」 的消息疯狂刷屏 。
作为一家没有商业模式的公司,OpenAI怎么就能估值百亿美金?投资人这么好忽悠吗?
其实,拉出OpenAI背后的ChatGPT,大家就多少能明白一点了 。这个语言模型「顶流」,最近可谓是无人不知,无人不晓 。
而近水楼台先得月的微软,已经悄咪咪地在互联网巨头混战中,先下了一城 。
前脚刚表示 ChatGPT即将整合进自家搜索引擎必应 , 后脚就放出 ChatGPT计划加入office「办公全家桶」 这个重磅炸弹 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
AIGC革命,又到了拼算力的环节
2022年,是AIGC的革命元年 。
DALL·E 2的诞生让「文生图」火了整整一年,紧跟其后的Stable Diffussion、Midjourney更是启发了无数人的艺术灵感,甚至让不少画手感到了「失业危机」 。
到了年末,ChatGPT更是在全民中掀起AIGC的风暴 。虽然是压轴出场,但「强化学习」(RLHF)赋予它的魔力,成功地掀起了一场全民的狂欢 。
刚刚我们提到的这些应用,虽然看起来花里胡哨,但在背后提供支撑的依然是大家熟知的大模型们 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
众所周知,对于大模型来说,不管是前期的训练还是后期的推理,都离不开巨量的「算力」 。
举个例子,「当红炸子鸡」ChatGPT和DALL·E 2基于的GPT-3,以及国产自研的源1.0、悟道和文心等等,不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别 。
想要搞定这些「庞然大物」的训练,就至少需要投入超过1000PetaFlop/s-day(PD)的计算资源 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
也难怪OpenAI在大炼GPT-3之前,会让微软花10亿美元给自己独家定制了一台当时全世界排名前五的超级计算机 。
但是问题在于,并不是每个需要到大量AI算力的企业或高校,都能财大气粗地斥巨资搞一个自己的「人工智能高性能计算中心」 。
那么,如果我们换一个思路,让算力变得更加「普适普惠」,是不是也能实现相同或更好的效果呢?
于是,在2020年12月的时候,国家信息中心和浪潮信息联合发布了《智能计算中心规划建设指南》 。其中,便提到了一个全新的概念——智能计算中心(简称,智算中心) 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
智算中心是什么?
为了能更好地解决人工智能领域的问题,智算中心的发展就需要基于最新的AI论和先进的AI计算架构,并以AI芯片、AI服务器、AI集群为算力的载体 。
首先,当前主流的AI加速计算,主要是采用CPU系统搭载GPU、FPGA、ASIC等异构AI加速芯片 。
由于GPU芯片中原本为图形计算设计的大量算术逻辑单元(ALU),可为以张量计算为主的深度学习计算提供很好的加速效果,因此广受学术界和工业界的欢迎 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
随着越来越深入的应用,GPU芯片本身也根据AI的计算特点,进行了针对性的创新设计,如张量计算单元、TF32/BF16数值精度、Transformer引擎(Transformer Engine)等 。
而更加「专一」的AI计算加速芯片,主要脱胎于GPU芯片 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
特斯拉Dojo人工智能训练芯片
其次,作为智算中心算力机组的AI服务器,则采用CPU+AI加速芯片的异构架构,通过集成多颗AI加速芯片实现超高计算性能 。为了满足各领域场景和复杂的AI模型的计算需求,AI服务器对计算芯片间互联、 扩展性也有着极高要求 。
最后,智算中心还需要对业界主流、开源、开放的软件生态提供充分的支持 。
比如,用于开发AI算法的深度学习框架TensorFlow和PyTorch,为适应CV、NLP等特定场景开发而构建的一系列开源库等等 。
搅动100亿美金的ChatGPT,竟然这么依赖TA?

文章插图
智算中心总体架构
不过,和国外那些大厂给自己定制的高性能计算中心不同,智算中心其实是一个面向公众的基础设施,更好地解决建不起、用不起算力的问题 。


推荐阅读