DPU碰撞ChatGPT,算力效率会擦出哪些火花?( 二 )


2、以降本增效为目标,DPU 直击行业痛点
DPU 要解决的核心问题是基础设施的“降本增效”,即将“CPU 处理效率低下、GPU 处理不了”的负载卸载到专用 DPU,提升整个计算系统的效率,降低整体系统的总体拥有成本(TCO) 。
CPU 资源负载过大为行业痛点,智能网卡(Smart NIC)为 DPU 前身 。在通信领域,伴随着 5G、云网融合时代的到来,以及虚拟交换等技术的引入,基于服务器的网络数据平面的复杂性急剧增加 。海量的数据搬运工作被 CPU 承担,导致网络接口带宽急剧增加,CPU 资源负载过大,大大影响了 CPU 将计算能力释放到应用程序中,为了提高主机 CPU 的处理性能,Smart NIC(智能网卡)将部分CPU 的网络功能(如 IP 分片、TCP 分段等)转移到网卡硬件中,起到了加速运算的目的,其可视为 DPU 的前身 。新一代的 DPU 的优势在于不仅可以作为运算的加速引擎,还具备控制平面的功能,可以更高效的完成网络虚拟化、I/O 虚拟化、存储虚拟化等任务,并彻底将 CPU 的算力释放给应用程序 。
 

DPU碰撞ChatGPT,算力效率会擦出哪些火花?

文章插图
 
功能方面,DPU 具备集成基础业务、网络数据加速、零信任保护、算存分离等多种功能 。可有效解决当前 CPU 算力无法完全作用到应用程序,数据处理速度慢,授信导致的数据泄露,存储方案兼容性差等诸多问题 。具体来说:
1.DPU 实现了业务与基础设施的操作分离 。DPU 将基础设施任务从 CPU 转移至 DPU,释放 CPU 的资源,使更多的服务器 CPU 核可用于运行应用程序,完成业务计算,从而提高服务器和数据中心的效率 。
2.DPU 卸载网络数据,实现性能提升 。DPU 针对云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务 。根据程序员客栈数据,红帽 Red Hat 的容器化云平台即服务(PaaS)0penShift 上,借助 DPU优化数据中心资源利用率,将网络相关的数据处理(如 VxLan 和 IPSec 等)卸载到 DPU 加速执行,在 25Gb/s 网络条件下,Open Shift 部署 DPU 用来加速,可以只用 1/3 的 CPU 占用率来达到 25Gb/s 性能,而在 100Gb/s 网络条件下,未部署 DPU 的场景将达不到 100Gb/s 网络线速,DPU 可以带来 10 倍的性能优势 。
3.DPU 可以提供零信任安全保护,零信任(Zero Trust)是一种以安全性为中心的模型,其基于以下思想︰企业不应对其内外的任何事物授予默认信任选项 。零信任可以减少数据泄露、拒绝未授权的访问,因此在数据安全方面价值很大 。
方式:DPU 通过将控制平面由主机下放到了 DPU,来为企业提供零信任保护,实现主机业务和控制平面的完全隔离,数据将无法进行穿透,保证安全性 。
DPU 的出现相当于为每个服务器配备了一台“计算机前的计算机”,以提供独立、安全的基础设施服务,并与服务器应用域安全隔离 。如果主机遭受入侵,安全控制代理与被入侵主机之间的 DPU 隔离层可防止攻击扩散至整个数据中心 。这样 DPU就解决了企业不愿直接在计算平台上部署安全代理的情况 。通过在完全隔离于应用程序域的DPU 上部署安全代理,企业不仅能获得对应用程序工作负载的可见性,还能在其基础设施中执行一致的安全策略 。
4.DPU 助力实现“算存分离”,BlueField SNAP 技术方案通过在服务器系统的数据入口处引入计算资源,在 DPU 上独立实现面对应用需求的存储方案,帮助存储厂商在数据中心中低成本地灵活部署、升级高级存储协议,而完全不需要对现有软件栈进行任何更改 。存储厂商可以把自家团队为各行业应用开发的开放系统的直连式存储(DAS)、纵向扩展(Scale-up)、横向扩展(Scale-out)、超融合架构(Hyperconverged)等存储解决方案,零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中,而所有的安全加密、数据压缩、负载均衡等复杂又必须的功能则完全由 DPU 透明地卸载 。存储行业的革新算法和实现,可以在 DPU架构中,独立于服务器操作系统进行部署 。DPU 技术帮助存储厂商实现真正的“算存分离”,完全发挥自家产品的技术优势,打通最高效服务应用需求的通路 。
3、依托智能网卡化茧成蝶,FPGA 及混合架构路线为主流
Smart NIC 可以被看作 DPU 的前身,包含基于多个 CPU 内核的 ASIC 和基于 FPGA 的智能网卡等类型 。随着技术的发展,FPGA、ASIC 和 SoC 也在相互融合,它们之间的界限越来越模糊 。例如,随着 FPGA 的发展,现在很多 FPGA 内部集成了硬核,这种硬核就是传统意义上的 ASIC;从硬件可编程的角度来看,SoC 与 FPGA 相反,它可以看作 ASIC,这里的 ASIC 主要指硬件不可编程,而不是单指特定功能芯片 。


推荐阅读