行业互联网|生逢其时,一站式大数据平台终将代替混合架构 多模数据库将替代多种数据库

养成一个习惯可能只需要90天的时间 , 但习惯一旦养成 , 将不可逆转 。这是心理学中一个基本的规律 。
在过去的8个月 , 我们都接受了把会议移到线上 , 不得不接受在线教育、远程医疗、无接触校招、直播培训……
疫情以惊人的方式彻底改变了我们的工作、生活、社会和商业 。我们将有更多的线上应用 , 积累更多的数据 。
未来10年我们需要学会和疫情长期相处、和平相处 。后疫情时代 , 企业将积极拥抱数字化 , 打造敏捷组织 , 快速对于外部环境做出响应 。
因此 , 我们要利用数据 , 让数据办事 , 让数据发挥潜力 。毫无疑问 ,大数据应用落地日渐增多 , 对大数据应用更好体验的需求 , 正在酝酿大数据平台新的变革 。
行业互联网|生逢其时,一站式大数据平台终将代替混合架构 多模数据库将替代多种数据库
文章图片

文章图片

1.用户呼唤一站式大数据平台
经过对整个企业级数据中心IT环境的基础分析 , 在数据层面 , 不难发现 , 数据中心经常存在混搭架构 。
在混搭数据中心 , 基本上一种数据库技术处理一种数据类型 , 多数据种类的数据中心会用到多种数据库技术 。
传统的数据库技术 对事务要求比较高 , 一般依托单机版关系型数据库 , 如Oracle、MySQL、SQLServer , 再加数据复制等高可用措施即可满足业务需求 , 处理性能相对较高 。在数据量和并发交易量增加情况下 , 一般可以采用OracleRAC集群方式或者是通过硬件升级(采用小型机、大型机等)来支撑 。但能处理的数据量负载并不高 , 只能达到TB级别或者GB级别 。
对实时性要求比较高的场景 , 会采用内存数据库 。相对于磁盘 , 内存的数据读写速度要高出几个数量级 , 将数据保存在内存中相比从磁盘上访问 , 能够极大地提高应用的性能 。
数据量再大的时候 , 会有MPP并行数据库的技术 , 利用系统中的各个处理机结点并行完成数据库任务 , 提高数据库系统的整体性能 。
大数据Hadoop技术会用在处理海量数据 , 特别是在100TB级别或者是PB级别的数据 。
对于一些单一的典型场景 , 市场上也出现不同的产品 , 有了知名的解决方案 , 解决数据的多样性 。
例如 , 结构化数据使用Hive , 通过 Hive 可以使用 SQL 来查询分析Hadoop中的大规模数据 。其思路就是将结构化的数据文件映射为数据库表 , 然后把SQL语句转换为MapReduce任务来执行 , 极大的提高了大规模数据的统计效率 。
动态列模型使用Bigtable、Hbase , 如Google BigTable是一个用于管理结构化数据的分布式存储系统 , 可以同时处理上千台机器中的PB级别的数据 。Google 中的很多项目 , 包括Web索引都使用Bigtable来存储海量的数据 , 满足“大数据量、高吞吐量、快速响应”等不同应用场景下的存储需求 。
应用于数据存储的文档数据库MongDB , 专注于满足各类复杂搜索需求的ElasticSearch , 常被应用于会话缓存的高速NoSQL数据库Redis , 图数据库Neo4J , 以及由实时计算引擎正蔓延成为通用大数据引擎的Flink等 。
由此可见 , 在 数据层面的混搭架构 , 会用到多种数据库技术 , 不同的技术解决不同的数据分析问题 。大数据平台基本上就是一组技术或者工具的组合 。
显然 , 一个问题采用一种数据库 , 用组合的方式来解决大数据分析中面临不同问题 , 已经是杯水车薪了 。光靠工具的组合不足以解决大数据的问题 , 用户需要一站式的大数据平台 , 解决企业在4V——数据量大、数据种类多、数据实时性高、要从数据中发掘价值——上面临日益紧迫的挑战 。
首先这些产品都是孤立的 , 每一个或者类产品只能解决一类问题 。当用户的数据有很多种类型时 , 就不得不采用不同种类的数据库 , 并把它混在一起 , 需要将数据复制很多份 , 成本高 , 效率低 。


推荐阅读