OFweek维科网|“冷数据”更需要“热处理”
【OFweek维科网|“冷数据”更需要“热处理”】
数字化时代 , 人们最怕的一件事是什么?丢手机!
因为与个人密切相关的几乎所有重要信息都在里面 。 没有手机 , 简直是寸步难行 。 很多人在手机存储空间已满的情况下 , 宁愿再购置一部新手机 , 也不愿意删除旧手机上的数据 。
我们面临的严峻挑战是 , 不仅数据量呈几何级数增长 , 而且数据的生命周期越来越长;不仅要保证热数据的实时响应 , 而且要实现冷数据的低成本、持久和可靠保留 。 想到这 , 是不是有些“蓝瘦 , 香菇”?
本文插图
17年 , 归档的变与不变
回溯存储发展的历史 , 早在2003年 , 信息生命周期管理(ILM)便成了存储领域的一个时髦词 。 ILM让我们记住了两句话:第一 , 所有数据都要经历从产生到消亡的一个价值转换的过程;第二 , 在这个过程中 , 最好的应对之策就是根据存储阶段以及价值的不同对数据进行分类 , 然后制定相应的策略 , 将正确的数据存放到正确的存储设备或介质上 , 从而实现成本最低、服务最优 。
17年过去了 , ILM这个英文缩写似乎鲜有提及 , 但是与ILM一脉相承的分层存储理念却越来越深入人心 , 而且对于数据“温度”的掌握和应对 , 企业也做得越来越细致 , 热数据、温数据、冷数据甚至极冷数据 , 如何分而治之 , 行业也都有明确的规范可循 。
那么当前挑战的紧迫性和高难度到底体现在哪里呢?17年前 , 我们谈论ILM时 , TB级数据量已经被认为是“海量” , 现在则迈入了ZB级时代 , 有几个数量级的增加 。 IDC预测 , 全球年新增数据量到2025年将达175ZB 。 如果用市面上主流的8TB硬盘来存储这些数据 , 需要230多亿块硬盘 , 以每块硬盘的价格1300元计算 , 存储成本高达30万亿元 , 相当于2019年中国GDP的三分之一 。 这就是最大的挑战之一 , 存储成本难以负担 。
另外 , 随着数据驱动的理念逐渐深入人心 , 对数据进行深入挖掘和分析成了必不可少的过程 , 以前看似无用或不被经常访问的数据 , 其中蕴藏的价值可能是你想象不到的 。 比如 , 发生在1992年的南医大的一场命案 , 在28年后通过DNA检测得以侦破 。 可见基因数据的长久可靠保存意义重大 。
数据量猛增、数据价值被层层挖掘、数据的生命周期不断延长 , 但是数据保留和保护的现状又是怎样呢?数据流失与数据管理的混乱是企业挥之不去的痛 。 统计数据表明 , 当2025年全球新增数据量达到175ZB时 , 真正能被存储下来的数据仅有15ZB左右 , 流失率超过91% , 而在这些被保存下来的数据中 , 能够得到充分有效分析和利用的数据则是少之又少 。
考虑到数据对业务的影响 , 大多数企业通常会把关注的目光投入到始终在线的热数据上 , 比如交易数据 , 因为这可以给企业带来直接的经济效益 。 像备份数据这样的温数据 , 虽然访问的频次相比热数据降低不少 , 但是备份数据可以“重新利用” , 比如用于开发或测试 , 以及数据挖掘等 , 所以也成了当下应用的热门 。 而几个月甚至几年也不会被访问的冷数据 , 是不是一直在被“冷处理” , 或者无人问津?
UCloud优刻得存储平台研发总监吴斌炜介绍说 , 在企业中 , 大约只有20%的数据属于热数据 , 也就是实时业务应用数据 , 而80%是冷数据 , 主要是备份、归档 , 或用于数据分析、人工智能等 。
其实 , 数据归档是一个老生常谈的话题 , 磁带库就是最典型的归档产品 。 虽然过去这几十年中 , “磁带将死”的声音一直不绝于耳 , 但是因其成本低、保存时间长等特点 , 磁带仍有自己的一席之地 。 还有与磁带特点类似的蓝光存储 , 不仅被用于归档 , 而且现在还被创新地用于数据湖的承载 。