内存第四范式推出业界首个基于持久内存、支持毫秒级恢复的万亿维线上预估系统
线上预估服务是AI在企业应用落地的关键环节 , 企业通常会采用分布式计算架构在内存中完成实时数据处理和高达万亿维的模型特征存储 , 并通过多集群副本解决传统纯内存(DRAM)天生的易“失”性隐患 , 以达到线上实时服务质量(Quality of Service)效果 。 然而 , 随着企业AI应用模型大小和数量的增长 , 线上预估服务所需要的硬件资源也呈几何倍数增加 。
为进一步满足企业线上预估需求 , 第四范式定制开发了基于持久内存技术、支持实时恢复的万亿维线上预估系统 , 为企业提供高可用性、毫秒级恢复的在线预估服务 , 同时将企业总拥有成本降低80% 。 该系统基于第四范式AI算力平台SageOne的持久内存进行了软硬一体设计 , 与其他预估系统相比 , 可实现每秒亿级KV查询的高性能 , 并能够与第四范式自研的高维机器学习框架以及TensorFlow等AI开源框架无缝对接 。 保证了在线预估服务无论在发生物理故障或者程序崩溃的情况下 , 均具备毫秒级故障实时恢复特性 , 是企业低成本实现高可用AI线上预估服务的最佳选择 。
第四范式自研的基于持久内存的万亿维级参数服务器 – HyperPS是该线上预估系统的关键基础组件 。 HyperPS参数服务器具备高性能底层序列化框架、链路共享、多级访存优化、双端参数合并及动态扩缩容等特性 。 基于持久内存设计和优化后 , HyperPS在保持与基于纯内存参数服务器几乎一致性能的同时 , 展现出在线上预估应用中数据实时恢复和应用成本低的巨大优势 。
持久内存加持 参数服务器性能升级
参数服务器通常将所有数据放在纯内存中处理 , AI模型越大 , 分布式参数服务器的内存需求越大 。 此外 , 纯内存虽然性能优秀 , 但因其易失性(volatile)特性 , 一旦硬件或者软件发生故障 , 内存丢失的全部数据必须从持久性存储设备(HDD/SSD)中读取日志恢复 , 恢复速度慢 , 严重影响线上性能服务质量 。
持久内存的大容量、高性能、非易失性属性 , 为其带来了高安全性、低成本等优势 , 改善了目前纯内存容量小、成本高、灾备恢复慢等问题 。 针对持久内存这些应用优点 , 第四范式针对HyperPS参数服务器的底层系统架构和存取性能等进行了软硬一体设计 。 首先 , 针对节点内的shard重新设计了新的存储引擎 , 采用持久化哈希表为底层数据结构储存特征 , 保证高并行度性能的同时 , 对持久内存数据组织格式进行优化 , 达到接近于纯内存哈希表的性能;其次 , 对参数服务器灾难恢复机制调优 , 使用持久化智能指针记录哈希表的核心数据结构和根指针 , 实现业界首创的参数服务器实时恢复能力;再次 , 利用PMDK的transaction机制 , 使用pmempool分配和管理持久内存空间 , 确保持久内存数据一致性;最后 , 针对影响性能的持久化操作进行策略性的降低 , 进一步提高性能 。
在实际测试环境中 , 基于持久内存的HyperPS表现出更低的拥有成本和巨大的实时恢复优势 , 以及与纯内存近乎一致的性能表现 。
01. 企业AI应用内存预估:
AI为企业带来出众的业务效果 , 同时企业也要承担AI产生的成本压力 , 特别是当AI规模化应用时 。 以某著名手机终端厂商为例 , 分别采用配备384GB 纯内存服务器和配备2TB持久内存的服务器为预估单节点基准 。 每上线一个模型在在纯内存的参数服务器上占用内存空间大概是128GB 。 基于持久内存的数据结构由于其有额外的持久化逻辑 , 在空间复杂度上会略高于纯内存数据结构 , 其空间占用大概是204GB 。 在此基础上 , 估算企业上线1-100个模型参数服务器所需的纯内存物理节点数和配备持久内存的物理节点数量 。
图片
从预估结果来看 , 企业需要采用持久内存的物理节点数量和纯内存的物理节点数量比为1:3.4-4 , 而持久内存的参数服务器总成本最多下降80% 。
推荐阅读
- |好物推荐:RGB杀马特灯条下的另类内存条 金士顿掠食者系列
- 手机使用技巧|宝宝照片太多怎么办?4种不占手机内存的存储方式,最后一种更安全
- 红米手机|长续航大内存百元老人机推荐红米9
- 开售|千元四摄OPPO A11开售:配备5000mAh电池+AI四摄 128GB超大内存
- 雷军|雷军再度爆发,小米10跌至新低价,还有256GB内存!
- 手机使用技巧,微信|不管手机配置多好,微信这个“默认开关”要关闭,会占用大量内存!
- 小米手机|想买手机的再等等,下半年发布的四款神机,第四款颠覆手机形态!
- 内存条|重磅消息!首款国产芯片内存条问世,有望走向世界市场
- 驱动之家|32GB内存有必要吗?实测给出你想不到的答案
- Realme手机|OPPO火力全开,8+256GB大内存跌至1699,支持屏幕指纹和NFC功能