DPU碰撞ChatGPT,算力效率会擦出哪些火花?( 三 )


NIC 代表网络接口卡 。实际上,NIC 是一种插入服务器或存储盒以连接到以太网网络的 PCIe 卡 。基于 DPU 的 Smart NIC 超越了简单的连接,在基础 NIC 的情况下,在 NIC 上实现了 CPU 必须执行的网络流量处理 。
基于 DPU 的 Smart NIC 可以是基于 ASIC、FPGA 和 SoC 的 。在这些不同的路线之间,在成本、编程的易用性和灵活性方面存在各种权衡 。1)ASIC 具有成本效益,可能提供最佳性价比,但灵活性有限 。基于 ASIC 的 NIC,如 NVIDIA ConnectX-5,可以具有相对简单的可编程数据路径 。最终,该功能基于 ASIC 中定义的功能而受到限制,这可能会阻止支持某些工作负载 。2)相比之下,FPGA NIC(如 NVIDIA Innova-2 Flex)具有高度可编程性 。只要有足够的时间和精力,就可以在可用门的约束范围内相对高效地支持几乎任何功能 。然而,众所周知,FPGA 编程困难且价格昂贵 。3)对于更复杂的用例,SOC(如 Mellanox BlueField DPU–可编程智能网卡)提供了似乎是最好的基于 DPU 的 Smart NIC 实现 。
 

DPU碰撞ChatGPT,算力效率会擦出哪些火花?

文章插图
 
4、DPU核心价值在于算力的卸载释放与扩展,异构算力互联推动 DPU 多领域高速发展
1.算力卸载:即利用 DPU 集成一部分数据处理的基本功能,然后将这些功能从 CPU 中卸载下来,以提升 CPU 针对部分应用的算力 。DPU 的部分价值体现在节省这部分算力的成本-DPU 自身的成本 。因此 DPU 节省的算力越多,或 DPU 的成本越低,其带来的价值越高 。与此同时,由于 DPU 的专用化,DPU 将部分涉及网络、存储、安全、管理相关的控制功能卸载之后,还将使得业务性能得以提升,因此 DPU 的另一部分价值在于其可为业务节省的时间与使用体验 。
根据技术邻数据,在大型数据中心的场景之中,DPU 的算力卸载功能可用于减少数据中心税 。由于在数据中心流量处理占了计算 30%的资源,AWS 将这些还未运行业务程序,先接入网络数据就要占去的计算资源称为“数据中心税(Data center Tax)” 。
在数据安全场景中,DPU 由于其独立、安全的架构,可将部分加密、解密算法固化在 DPU硬件之中,以物理隔离的方式解决用户在海量数据的数据安全问题,为外部网络业务租户之间提供额外的安全层 。
 
DPU碰撞ChatGPT,算力效率会擦出哪些火花?

文章插图
 
2. 根据中国信通院数据,算力释放:算力释放无需 CPU 介入多次访问内存和外设,避免不必要的数据搬运,拷贝和上下文的切换,直接在网卡硬件上对数据完成处理并交付给最终消费数据的应用 。传统以 CPU 为中心的计算机体系结构在处理数据的过程中需要多次在内核和应用之间拷贝和访问数据,带来的是极大的性能损耗 。以数据为中心的 DPU 架构则可以有效改善 CPU 过度参与数据处理的问题,在数据处理的过程中不需要 CPU 参与,直接将数据送达应用、相关的 GPU或者存储设备,能够有效避免性能瓶颈和由于 CPU 负载过大而引发的异常 。
DPU 架构和技术,使服务器上运行的业务应用和操作系统内核,用简单的本地存储访问 API,就能实现对分布式、超融合或软件定义存储系统的高效透明访问 。存储厂商可以把为各行业应用开发的直连式存储(DAS)、纵向扩展(Scale-up)、横向扩展(Scale-out)、超融合架构(Hyperconverged)等存储解决方案,零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中,而所有的安全加密、数据压缩、负载均衡等复杂又必须的功能则完全由 DPU 透明地卸载 。存储行业的革新算法和实现,可以在 DPU 架构中,独立于服务器操作系统进行部署 。
DPU 技术帮助存储厂商实现真正的“算存分离”,完全发挥自家产品的技术优势,打通最高效服务应用需求的通路 。
3.算力扩展:算力扩展即通过有效避免拥塞消除跨节点的网络通信瓶颈,显著降低分布式应用任务周期中的通信耗时占比,在大规模的集群维度提升计算集群的整体算力 。为了提升算力,业界在多条路径上持续演进 。通用 CPU 已很难继续通过提升单核单线程的性能和扩展片内多核的方式来大幅提升算力 。单核芯片的工艺提升至 3nm 后,发展放缓;通过叠加多核提升算力,随着核数的增加,单位算力功耗也会显著增长,当 128 核增至 256 核时,总算力水平无法线性提升 。在计算单元的工艺演进已经逼近基线,为了满足大算力的需求,通过分布式系统,扩大计算集群规模,提升网络带宽,降低网络延迟成为提升数据中心集群算力的主要手段 。


推荐阅读