幻化成蝶|杉岩数据:从数据到洞察,如何用对象存储支撑新型数据湖

1、传统数据湖面临性能挑战
随着数据分析和人工智能应用的普及 , 企业数据量大增 , 创新业务层出不穷 , 企业对数据分析灵活性、性能和成本的要求越来越高 , 传统大数据Hadoop系统搭建的数据分析平台已无法满足企业的要求 。 越来越多的企业以数据湖为基础构建大数据处理平台 , 数据湖的典型特征是存储和计算分离 , 能够降低系统成本同时获得更好的系统扩展性 。
数据湖架构使得企业可以在一份数据上拓展创新业务 , 而不必每发展一个新业务就做一次数据拷贝 , 但传统数据湖方案在性能上仍然存在明显的缺点 , 传统数据湖依赖云存储 , 虽然降低了存储成本 , 但在数据分析的过程中完全依靠云存储自身的吞吐能力进行数据扫描 , 这种方式只适用于ETL、批量计算等时延不敏感的应用 , 却无法支撑秒级数据检索、时序数据分析等低时延的分析场景 。
2、数据湖支撑大数据分析和机器学习平台
除了服务传统的Hadoop/Spark大数据分析平台 , 数据湖还需要满足AI算法的模型训练和推理、数据归档的需求 , 这要求存储系统支持多种协议以提升处理效率 。 比如在自动驾驶模型训练及分析场景中 , 车辆采集的视频、雷达数据需要通过文件或对象接口导入存储 , 然后通过HDFS接口对数据预处理 , 预处理结果再通过文件接口由计算服务器进行AI训练和高性能仿真 , 从而得到新的算法和模型进行下一轮测试 。 这些需求不是单一的对象存储或HDFS存储能够支撑的 , 需要更专业的存储平台提供服务 。
杉岩数据的MOS海量对象存储通过异构纳管的方式 , 可以整合管理已有的HDFS数据源和NAS数据源 , 通过混合云存储方案 , 可以将存储在公有云的数据也纳入到MOS对象存储池统一管理 。 杉岩数据近期发布的MosFS高性能数据湖文件网关在系统架构中位于MOS对象存储池之上 , 为Hadoop/Spark大数据分析平台和TensorFlow/PyTorch/Caffe等机器学习平台提供原生的HDFS接口、S3/OSS对象接口、POSIX文件接口 。
幻化成蝶|杉岩数据:从数据到洞察,如何用对象存储支撑新型数据湖图1 数据湖文件网关架构
MOS对象存储和MosFS文件网关组合构建的数据湖架构为企业统一管理众多的数据源 , 实现高性能存储和数据治理提供了坚实的基础 。
高效率的多数据源管理
MOS可以纳管第三方的NAS存储、对象存储和HDFS数据源 , 并通过映射的方式对上层提供数据服务 , 可以在现有的IT架构中实现存储系统的快速割接 , 漫长的数据迁移可以在后台异步执行 。 统一管理的数据可以为多套平台和应用服务 , 不需要多重复制 , 减少对存储空间的需求 。
内容感知的多级缓存加速
机器学习平台在模型训练中要求数据的超高吞吐量和超低延迟 , MosFS可以和上层应用联动 , 通过标签感知与应用关联度高的数据 , 机器学习平台可以通过路径、数据标签、多策略组合等方式得到相关性高的数据集 。 在实际运行中 , MosFS把上述数据映射成目录 , 并通过内存和SSD多级缓存来加速数据访问 。 比如在自动驾驶的训练中 , 算法需要所有车辆在白天的四车道上捕获的视频和图片 , MosFS就可以通过这些数据特征对应的标签 , 将MOS存储资源池中的相关数据映射为一个目录 , 并通过多级缓存提供给训练算法 。
多策略数据映射简化管理
MosFS的数据映射能力实现了数据访问的虚拟化 , 并通过全局命名空间将数据呈现给上层应用 , 基于时间、标签、文件名前缀等多粒度策略可以简化对数据的管理 。
3、性能逼近本地全闪存的分布式数据湖文件网关
MosFS文件网关与MOS对象存储可以合设也可以分离部署 , 为了满足机器学习平台超高吞吐量和超低延迟的性能要求 , 通常将MosFS分布式部署于计算服务器 , 在这种情况下 , MosFS将计算服务器的本地预留内存和SSD组成一个分布式的缓存层以加速训练 。 传统分布式NAS作为机器学习后端存储的方案具有成本高昂、数据与其它类型存储不能互通等缺点 , 数据管理复杂造成训练效率低下 , 相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存储 , 统一所有数据视图 , 且分布式数据缓存可以将训练效率提升多倍 , 性能接近于使用计算服务器的本地SSD 。


推荐阅读