训练一次ChatGPT,“折寿”3000辆特斯拉( 二 )


眼下,就连呼吁暂停大模型开发的马斯克,也要打造“推特版的ChatGPT”了 。
根据美国知名科技媒体Business Insider 报道,马斯克已经购买了一万块GPU,通过生成式的AI大模型和海量数据,强化推特的搜索功能并帮助其广告业务重整旗鼓 。
作为OpenAI的早期投资人,外界一直对马斯克抵制AI发展的态度半信半疑 。就在本月初,网络上还有传言称马斯克将在半年后打造比GPT4更强大的大模型 。
更有传言称,马斯克计划通过SpaceX把超级计算机搬到太空上,目的是节约制冷和耗能 。且不论这件事的真假,看起来倒是个好点子 。

训练一次ChatGPT,“折寿”3000辆特斯拉

文章插图
截图来自网络
打造太空数据中心,似乎能享有得天独厚的资源禀赋:24小时天然低温散热,全年无限量太阳能,而且全部都免费 。那么这个绝妙的创意,到底靠不靠谱?
一位民营商业航天专家否定了这个想法,他告诉虎嗅,太空超低温环境确实不假,但很多人忽略了一个基本的物理常识,那就是所有热量的交换都是靠分子运动实现的 。而太空环境趋近于真空,所含物质过于稀少,因此,“虽然温度低,但是导热慢,自然散热条件其实远不如地面 。”
其次,目前卫星太阳能帆板的供电系统普遍功率只有1200W,无论是电力供应还是成本,地面光伏解决方案都有绝对的优势 。
另外,训练大模型需要大量的数据输入和输出,这要求服务器具备超高的网络带宽能力 。太空信息基础设施提供商艾可萨联合创始人王玮认为,数据中心作为网络互联底座,保证数据传输的稳定性和速率至关重要 。但就目前来看,“即便消耗星链全部的带宽,都未必都能保证大模型训练所需的数据实时传输需求 。”
当然,还有一些革命性的技术创新被ChatGPT带火,中科创星创始合伙人米磊表示,最典型的就是光子技术 。比如具备高算力、低能耗优势的光电共封装(CPO)技术 。简而言之就是将光器件和交换芯片封装在一起,为暴涨的算力需求提供了一种高密度、高能效、低成本的高速互连解决方案 。
米磊认为,本轮大模型领域的热潮代表了“AI技术的发展进入了全新阶段” 。作为一种用光进行运算的芯片,其耗电量仅占同等级电子芯片的六分之一 。随着人工智能不断发展,训练、运行这些产品需要的算力水平也越来越高,行业对高速率、低能耗的光芯片也越发期待 。
截至目前,中科创星在光电领域累计投资了超过150家企业 。早在2016年米磊就提出,光是人工智能的基础设施,光子是新一代信息技术基石的理念 。“喊了这么多年,冷门的技术终于被ChatGPT带火了 。”最近二级市场上光芯片相关股票的大涨也体现出了这一点 。这种偶然性,在米磊看来是必然趋势 。
着眼于当下,降低AI模型整体能耗、节省电费开支的主要方式,依然是想办法提高数据中心的散热效率 。中金公司认为,以液冷技术为代表的主动散热技术有望凭借优良的散热性能被更多地采用 。
相较于传统的风冷系统,液冷系统直接将热负荷传递至冷冻水系统中,制冷效率更高且占地更小,能够提升服务器的使用效率及稳定性,满足高功率密度机柜的散热要求 。
例如英伟达HGX A100采用的直接芯片(Direct-to-Chip)冷却技术,在机架内直接整合液冷散热系统,取代传统的风冷系统散热,实测消耗的能源减少了约30% 。而液冷数据中心的PUE(电源使用效率)能达到1.15,远低于风冷的PUE 1.6 。
随着大模型对算力的渴求,市场对高性能芯片的需求还将进一步提升 。新思科技全球资深副总裁兼中国董事长葛群就曾表示,到2025年全球数据中心占整个全球用电量将要提升到全球的20% 。“因此,在全球最领先的科技公司中,最重要的一项技术方向就是如何能够使他们的数据中心能耗降低,成本降低 。”
早在7年前,作为全球EDA(电子设计自动化)和半导体IP领域龙头的新思科技就启动了一项叫做“高能效设计”的项目,将芯片的能效最大化 。
这种能耗管理的逻辑是,数据中心有多块芯片,每个芯片上有几十亿甚至上百亿的晶体管,一个晶体管,相当于一个用电单位,以此推断,一颗指甲盖大小的芯片,就是一个规模庞大的能源网络 。如果能够将每个晶体管的能耗优化,那么最后的节能就能辐射到整个数据中心 。
一位资深分析师人士坦言,市场大可不必对大模型的能耗问题过度担忧 。“很多人忽略了一个事实,那就是大模型对算力的需求未来必然会逐渐下降,这意味着能耗也会相应降低 。”例如,微软刚刚宣布开源的DeepSpeed-Chat就充分印证了这一点 。


推荐阅读