脑极体|华为的“少年天才”攀登者,出发向智能存储的“奥林帕斯山”( 二 )


根据Gartner预测 , 2022年NVMe SSD在存储中占比将达到52% 。
脑极体|华为的“少年天才”攀登者,出发向智能存储的“奥林帕斯山”
本文插图

听起来 , 似乎只要将这个新协议用起来就好了 , 有什么难的?攀登者在前往大本营之前 , 都会提前进行线路规划、了解即将面对的地形和可能的风险 , 而对于NVMe技术的落地 , 其存在的挑战就在于 , 想要一路给SSD“开绿灯” , 并不容易 。
首先 , 新技术从实验室落地市场 , 需要达到规模化应用的高能效比 。 NVMe SSD全闪存阵列在合理成本上发挥出它的性能极限 , 从单纯的注重性能发展到真实降低单位比特成本 , 才能吸引客户买单;
其次 , 需要完整的产业链支持 , 比如当时的全闪存阵列控制器架构都是为了适应机械硬盘而设计的 , NVMe面临着软硬件适配、运维管理的重重阻碍 。
【脑极体|华为的“少年天才”攀登者,出发向智能存储的“奥林帕斯山”】另外 , 只有NVMe产品能够在企业业务中可以释放出真正的商业价值 , 特别是在分秒必争的企业场景 , 这就需要产品力的加持 。
这些 , 都推动着攀登者们全面理解、步步为营、持续发力 。
攀登 , 华为存储的三把“神兵”
在存储领域 , 传统的技术话语权柄一直被美国、日本等大国巨头厂商所把持 。 但变局在NVMe上发生了 。
2018年 , 华为在中国存储与数据峰会上 , 发布了华为OceanStor 存储 Dorado系列 , 率先实现了全系列支持NVMe架构 。
在达到这一成绩之前 , 华为也早已拿下了不少小的技术“据点” , 比如发布了业内唯一端到端NVMe SSD盘、NVMe闪存控制器和NVMe全闪存操作系统等等 。
智能存储的产业阶段 , 华为NVMe全闪存阵列 , 锤炼出了三把披荆斩棘、无往不利的“神兵利器”:
1.全面覆盖 , 化繁为简 , 指数级性能增长
华为更进一步 , 从网络、服务器、存储全部采用NVMe Over RoCE全IP组网设计 , 使用 TCP/IP 和 RoCE 来部署NVMe 闪存存储平台 , 让以往需要在多种协议(FC/IP/IB/PCIe/SAS)中复杂交互的局面 , 用NVMe一种协议完成了整个网的管理 。
这样从前端网络连接、后端硬盘框连接、scale-out的控制器互联均采用同一种网络协议 , 其优势也显而易见:极大降低了存储时延 , 极致时延可达0.1ms;避免复杂的网络协议和规划 , 简化了数据中心和企业网络的部署和维护成本 。
脑极体|华为的“少年天才”攀登者,出发向智能存储的“奥林帕斯山”
本文插图

2.全面创新 , 端到端整体护航高可靠性
作为业界率先实现全系列端到端NVMe全闪存的厂商 , 华为自然也抢先交付出了一整套的产业价值 。
以新一代OceanStor分布式存储、OceanStor全闪存、FusionData智能数据湖解决方案等为例 , 就基于智能无损网络和硬件 , 实现了数据在“采、存、算、管、用”整个生命周期的端到端整合和优化 , 将新一代存储技术更全面地融入数据基础设施 。
为此 , 华为应用了一系列创新技术 。
比如针对商用NVMeSSD盘必须快速在线更换的需求 , 避免暴力热插拔(PCIe surprise hot plug)可能导致的系统异常、业务中断 , 华为打造了智能无损网络和OceanStor全闪存联合NOF+增强方案 , 采用前端共享大卡在系统内实现故障自动巡检、即时感知、主动修复 , 链路故障感知时间只有1秒 , 端到端时延仅为75μs 。 与之相比 , 业内通用的NOF故障感知时间长达15秒 , 后者显然对于极大提升系统可靠性 , 保障端到端的稳定时延 , 起到了关键作用 。
再比如 , 存储单点的可靠性往往需要采用双控冗余技术保障 , 但大部分厂商会放弃技术上较难的原生双PCIe端口 , 而选择另辟捷径 , 导致系统可靠性的降低 。


推荐阅读