“冷数据”更需要“热处理”

数字化时代 , 人们最怕的一件事是什么?丢手机!
因为与个人密切相关的几乎所有重要信息都在里面 。 没有手机 , 简直是寸步难行 。 很多人在手机存储空间已满的情况下 , 宁愿再购置一部新手机 , 也不愿意删除旧手机上的数据 。
我们面临的严峻挑战是 , 不仅数据量呈几何级数增长 , 而且数据的生命周期越来越长;不仅要保证热数据的实时响应 , 而且要实现冷数据的低成本、持久和可靠保留 。 想到这 , 是不是有些“蓝瘦 , 香菇”?
“冷数据”更需要“热处理”
文章图片
17年 , 归档的变与不变
回溯存储发展的历史 , 早在2003年 , 信息生命周期管理(ILM)便成了存储领域的一个时髦词 。 ILM让我们记住了两句话:第一 , 所有数据都要经历从产生到消亡的一个价值转换的过程;第二 , 在这个过程中 , 最好的应对之策就是根据存储阶段以及价值的不同对数据进行分类 , 然后制定相应的策略 , 将正确的数据存放到正确的存储设备或介质上 , 从而实现成本最低、服务最优 。
17年过去了 , ILM这个英文缩写似乎鲜有提及 , 但是与ILM一脉相承的分层存储理念却越来越深入人心 , 而且对于数据“温度”的掌握和应对 , 企业也做得越来越细致 , 热数据、温数据、冷数据甚至极冷数据 , 如何分而治之 , 行业也都有明确的规范可循 。
那么当前挑战的紧迫性和高难度到底体现在哪里呢?17年前 , 我们谈论ILM时 , TB级数据量已经被认为是“海量” , 现在则迈入了ZB级时代 , 有几个数量级的增加 。 IDC预测 , 全球年新增数据量到2025年将达175ZB 。 如果用市面上主流的8TB硬盘来存储这些数据 , 需要230多亿块硬盘 , 以每块硬盘的价格1300元计算 , 存储成本高达30万亿元 , 相当于2019年中国GDP的三分之一 。 这就是最大的挑战之一 , 存储成本难以负担 。
另外 , 随着数据驱动的理念逐渐深入人心 , 对数据进行深入挖掘和分析成了必不可少的过程 , 以前看似无用或不被经常访问的数据 , 其中蕴藏的价值可能是你想象不到的 。 比如 , 发生在1992年的南医大的一场命案 , 在28年后通过DNA检测得以侦破 。 可见基因数据的长久可靠保存意义重大 。
数据量猛增、数据价值被层层挖掘、数据的生命周期不断延长 , 但是数据保留和保护的现状又是怎样呢?数据流失与数据管理的混乱是企业挥之不去的痛 。 统计数据表明 , 当2025年全球新增数据量达到175ZB时 , 真正能被存储下来的数据仅有15ZB左右 , 流失率超过91% , 而在这些被保存下来的数据中 , 能够得到充分有效分析和利用的数据则是少之又少 。
考虑到数据对业务的影响 , 大多数企业通常会把关注的目光投入到始终在线的热数据上 , 比如交易数据 , 因为这可以给企业带来直接的经济效益 。 像备份数据这样的温数据 , 虽然访问的频次相比热数据降低不少 , 但是备份数据可以“重新利用” , 比如用于开发或测试 , 以及数据挖掘等 , 所以也成了当下应用的热门 。 而几个月甚至几年也不会被访问的冷数据 , 是不是一直在被“冷处理” , 或者无人问津?
UCloud优刻得存储平台研发总监吴斌炜介绍说 , 在企业中 , 大约只有20%的数据属于热数据 , 也就是实时业务应用数据 , 而80%是冷数据 , 主要是备份、归档 , 或用于数据分析、人工智能等 。
其实 , 数据归档是一个老生常谈的话题 , 磁带库就是最典型的归档产品 。 虽然过去这几十年中 , “磁带将死”的声音一直不绝于耳 , 但是因其成本低、保存时间长等特点 , 磁带仍有自己的一席之地 。 还有与磁带特点类似的蓝光存储 , 不仅被用于归档 , 而且现在还被创新地用于数据湖的承载 。
云计算的出现对传统IT构建和应用模式的颠覆是方方面面的 , 先是业务系统、数据库等上云 , 然后是备份、容灾上云 , 现在数据归档也开启了云大门 , 这是必然的发展趋势 。 继续在本地实施长期的数据保留 , 还是选择云归档 , 这成了企业用户不得不面对的一道新选择题 。 但是归根结底 , 选择的标准是不变的 , 那就是:一 , 能否满足用户不同业务场景的应用需求;二 , 能否保证低成本和高可靠 。
抓开源 , 更要懂节流
技术的创新与快速迭代有时会出乎你的想象 , 很多时候 , 在你被诸多应用痛点困扰时 , 技术的突破会让你有一种豁然开朗的感觉 。 UCloud近期发布的新一代归档存储产品就让人有这种感觉 。 它采用UCloud全新自研存储架构 , 相较标准存储降低近80%的存储成本 , 价格低至0.024元/GB/月 , 为冷数据的归档开辟了一条新路径 。
企业的生存之道——开源与节流 。 从数据的角度 , 开源就是处理好热数据 , 实现业务增收;节流则是尽可能优化数据的存储 , 达到降低成本的目的 。 数据归档在很大程度上就是成本的比拼 。
存储成本主要包括两大部分——运营成本和硬件成本 。 UCloud优刻得存储平台资深研发工程师方然分析说 , 硬件成本主要包括CPU、内存、存储等 。 UCloud的思路是提高硬件成本中存储成本的占比 , 这样客户的单位容量存储中平摊的CPU、内存、网络等其他开销就可以大幅降低 。
为了降低存储成本 , UCloud新一代归档存储“双管齐下” 。 一方面 , UCloud新一代归档存储在国内首次采用了西部数据的高密JBOD机型和SMR盘(叠瓦式磁记录硬盘) 。 相较于传统CMR磁盘 , SMR磁盘最大的优势是磁道按Zone呈现的叠瓦式分布 , 提高了数据存储的密度 , 单位机架尺寸(每U)的存储容量提升5.375倍、磁盘数量增加59% , 同时单块磁盘的存储空间提升150% 。
另一方面 , 作为具有自主研发能力的云服务商 , UCloud基于自身多年来在公有云分布式存储领域积累的经验 , 在其新一代归档存储中采用了新一代自研归档存储架构 , 可以更好地兼容SMR、CMR盘 , 实现双活高可用 , 支持上下电的IO调度 , 以及EC的灵活配置和磁盘故障的自动化发现 。 高密机型SMR盘与自研架构相得益彰 , 硬件成本降低自然不在话下 。
对于一些现代化的超大型数据中心而言 , 每年动辄上亿甚至数亿元的电费是难以承受之重 。 在运营成本中 , 占大头的是电费 , 又细分为空调电费、设备电费等 。 UCloud主要优化的是设备电费 。 UCloud新一代归档存储采用软硬件协同的理念达到降低运营成本的目标 。 方然介绍说:“我们结合硬件选型 , 在软件层面自主研发了一套磁盘上下电调度系统 , 在保障磁盘寿命的同时 , 极大地降低电费成本 , 使磁盘能耗降低近90% , 在纯写入场景下 , 耗能磁盘块数仅为原有的5% 。 ”
如果仅比较成本 , 磁带存储、蓝光存储也具有各自的优势 , 为什么一定要采用基于机械式硬盘的UCloud新一代归档存储呢?除了成本这个重要因素以外 , 归档存储的长期可靠性、易管理和易维护性等也是必须考虑的指标 。 比如 , 磁带介质容易受到温度、湿度等自然环境的影响 , 保存不当可能导致数据损失 , 另外磁带的管理和维护也需要更多人工介入等 。
在保障可靠性方面 , UCloud新一代归档存储实现了存储节点双机头可见 , 即使发生故障也可快速自动切换;通过采用大比例、可灵活配置的EC , 能够将存储利用率提升150%;通过硬件加速 , 使EC计算相较于传统的纯软件计算 , 吞吐能力提升4~5倍;实现了全链路CRC校验 , 全面保障用户数据的安全性 。 特别值得一提的是 , UCloud新一代归档存储具备公有云服务简单、灵活等优势 , 为企业上云消除了后顾之忧 。
新技术新场景 , 物尽其用
UCloud新一代归档存储中的“新”不仅代表了新的技术手段 , 而且更有效地支持了大量新的应用场景 。 比如现在非常火爆的视频应用 , 某短视频巨头的部分业务就运行在UCloud新一代归档存储之上 。 该短视频平台一天的数据量就有3PB 。 除了提供海量、低成本的空间存储这些音视频数据以外 , 合规也是非常重要的一项需求 。 按照监管要求 , 现在的视频直播资料至少要存储一两个月 , 而该平台则要求存储6个月 。 海量音视频数据的长期、可靠、安全存储 , 可能是未来归档存储面临的最大挑战之一 。 UCloud新一代归档存储已经想在前面 , 走在前列 。
吴斌炜将当前归档应用的主要场景进行了梳理 , 归纳出三大类、九大典型场景:多媒体归档场景 , 主要包括监控视频、广电媒资和在线直播 , 这是目前最热门的应用场景;历史数据合规存储 , 包括操作日志、数据库备份、电子合同等 , 这些是企业应用中最常见的场景;大数据、AI分析数据归档 , 包括自动驾驶、基因测序、智能制造等 , 这是最具价值前景的应用场景 , 也是归档未来重要的发展方向 。
【“冷数据”更需要“热处理”】举例来说 , 在多媒体归档场景中 , UCloud新一代归档存储是蓝光存储的一种理想替代方式 , 不仅可以提供不亚于标准存储的写入带宽 , 实现分钟级数据异步取回、在线回看 , 还可采用纠删码冗余策略保障数据安全可靠 , 完成自动化的数据生命周期管理 , 同时减少存储设备占地空间;在历史数据合规存储场景中 , 针对需要定时清理备份、缩减备份成本的用户 , UCloud对象存储支持数据生命周期管理功能 , 可实现自动化的数据定期清理、定期转入归档存储;在大数据、AI分析数据归档场景中 , UCloud新一代归档存储能够为大量的生物信息、IoT实时分析数据等提供长期归档存储 。
“客户的需求就是我们的下一个产品” , 这不仅是UCloud的口号 , 更是其立足之本 。 以新的技术手段解决新的应用痛点 , UCloud新一代归档存储从客户需求中来 , 又走到客户的业务中去 , 不仅让冷数据拥有更好的栖身之所 , 更能充分发挥数据应有的价值 , 两全齐美 。


    推荐阅读