|万亿维线上预估系统,第四范式如何实现每秒亿级KV查询?( 二 )


02. 数据恢复速度测试:
当系统节点出现故障时 , 采用纯内存的参数服务器需要从数据存储集群(如HDFS)重新申请模型参数数据恢复 , 耗时长 , 严重影响线上服务质量 。 采用持久内存的HyperPS则完全不同 , 节点发生故障或者程序崩溃后 , 数据依然保存在持久内存中 , 服务重启后只需要调用优化过的数据一致性检查函数 , 即可实现毫秒级实时恢复 。
|万亿维线上预估系统,第四范式如何实现每秒亿级KV查询?
本文插图

以恢复6千万维参数模型为例 , 纯内存参数服务器恢复模型需要花费58秒 , 而持久性内存参数服务器只需要0.03秒 , 故障恢复时长缩短将近2000倍 。
|万亿维线上预估系统,第四范式如何实现每秒亿级KV查询?
本文插图

恢复20个模型总计12亿维参数测试中 , 纯内存参数服务器数据恢复时间随着数据总量增加而大幅增长 , 而持久内存的参数服务器几乎没有受到影响 , 只需检查哈希表元数据后即可提供服务 , 其恢复时长缩短17114倍 。
03. 预估性能测试:
HyperPS不仅大幅降低了总拥有成本并提升数据恢复速度 , 也展现出和纯内存模式下同水准的性能表现 。 在非高压(1个请求线程)和高压(56个并发请求线程)的情况下的请求延迟(TP99) 。 结果表明 , 基于持久内存的HyperPS参数服务器在延迟上 , 与采用纯内存的参数服务器性能相近 。 单线程和56线程两个测试中 , 持久内存的参数服务器均仅比采用纯内存的参数服务器延迟多1毫秒 。
在吞吐性能对比测试项目中 , 基于持久内存的参数服务器在56线程的高压负载测试中的QPS仅比纯内存参数服务器低3.5% 。
【|万亿维线上预估系统,第四范式如何实现每秒亿级KV查询?】此次 , 通过 ''软件定义算力''的全新方式 , 第四范式将自研HyperPS万亿维参数服务器与英特尔?傲腾?持久内存进行软硬一体优化设计 , 保证线上推理服务超高性能的同时 , 大幅降低企业AI整体投入成本 , 提升线上服务质量 , 进一步扫清了企业AI规模化应用的前进障碍 。


推荐阅读