GPU|壁仞科技3年造出首款通用GPU:7nm工艺性能碾压NVIDIA 4nm
GPU明星初创公司壁仞科技,选在公司创立即将三年之际正式发布首款通用GPU芯片BR100 。
BR100采用7nm工艺,集成770亿晶体管,使用Chiplet(芯粒)技术,2.5D CoWos封装技术,芯片面积达到1000平方毫米 。
BR100通用GPU 16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,FP32算力超越英伟达在售旗舰GPU一个数量级 。
文章图片
壁仞科技创始人、董事长、CEO张文
壁仞科技2019年9月9日注册成立,在成立后的短短18个月,融资额超过47亿元,创下了国内芯片创业公司融资的记录,也成为了业界关注的焦点 。
今天的发布会上,壁仞科技创始人、董事长、CEO张文也谈到,大算力芯片创业至少要15亿元起 。而且,芯片行业本来就是资金密集、人才密集和资源密集的行业 。
壁仞科技经过了1065天研发,正式发布的首款GPU,打破了全球通用GPU算力记录,这是该记录第一次由中国企业创造,中国的通用GPU芯片正式迈入“每秒千万亿次计算”新时代 。
文章图片
喊出响亮的口号显然不能回应业界的一些质疑,只有真正强大的产品可以 。
文章图片
壁仞科技给出的数据显示,其首款旗舰产品BR100对比英伟达在售的旗舰GPU峰值算力在Int8、BF16、TF32/TF32+、FP32数据格式下最少有3.3倍的峰值性能优势,在FP32数据格式下性能优势更是达到了13.1倍 。
文章图片
文章图片
文章图片
文章图片
如果与国际厂商最新旗舰峰值算力对比,各种数据格式下也有性能优势 。
对于一家初创公司来说,想要超越英伟达最新的H100 GPU,挑战十分巨大,抛开其它因素,仅看一些关键参数,就能看到两者之间的差距,以及想要超越的难度 。
英伟达今年发布的最新GPU H100,采用的是专为英伟达加速计算需求设计优化的TSMC 4N 工艺,集成800亿个晶体管,显著提升了AI、HPC、显存带宽、互连和通信的速度,并能够实现近5TB/s的外部互联带宽 。
英伟达CEO黄仁勋发布H100时表示,20个H100 GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型 。
当然,壁仞科技联合创始人、CTO洪洲也给出了壁仞科技首款通用GPU能实现突破性性能的底层原因——自主原创的芯片架构壁立仞 。
壁立仞架势是以数据流为中心的架构,目标就是打破当前GPU架构面临的瓶颈,实现更强大的性能 。具体而言,壁立仞架构有6大特性:TF32+数据流精度、TDA数据流存取加速、C-Warp数据流并行、NME减少数据搬移、NUMA/UMA减少数据搬移、SVI数据流隔离 。
文章图片
洪洲说:“壁立仞架构对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步 。”
除了架构方面的努力,壁仞科技业采用了Chiplet的设计理念,让芯片总面积可以突破光罩尺寸对单芯片面积的限制,集成更多的算力和通用性逻辑 。“通过缩小单个计算芯粒的面积,还可以同时提升产能与良率,进而极大地降低硅片的成本,并支持更灵活的产品策略 。” 洪洲同时表示 。
文章图片
除了旗舰级BR100,壁仞科技今天还发布了BR104,同样采用壁立仞架构,拥有1个计算芯粒,性能约为BR100的一半,同样超越了国际厂商的在售旗舰产品 。
推荐阅读
- 科技前沿|被引次数前1%的论文:中国第一!
- NVIDIA|1.8万核心GPU、144核心CPU!NVIDIA大杀器将揭开面纱
- 强腰健肾丸
- 科技科普|水果坏了一部分 剩下的究竟还能不能吃?这两种情况随便吃
- 华为|女神高圆圆联手全新华为MateBook X Pro:科技与美的新高度
- 芯片|半导体行业突变!美国正式封杀“芯片之母”EDA:阻碍全球科技创新、发展
- SUV|年轻人第一台科技伙伴!传祺影酷开启预售 13.2万元起
- NVIDIA|取代NVIDIA安培GPU!特斯拉自研7nm超级芯片:性能残暴
- 播思科技官网 播思通讯
- 如何正确清洁 iPhone