mpp架构和大数据区别;mpp架构横向扩展最多多少个节点?


mpp架构和大数据区别;mpp架构横向扩展最多多少个节点?

文章插图
本篇文章给大家谈谈mpp架构,以及mpp架构和大数据区别对应的知识点 , 希望对各位有所帮助 , 不要忘了收藏本站!
内容导航:
  • 比较smp 、ssmp 、cc -numa 、基于集群的mpp 及dsm 在体系结构的异同点?
  • mpp架构横向扩展最多多少个节点
  • 什么是数据库完全对等无共享的MPP架构
  • 数据平台建设的方案有哪几种?
  • 大数据的核心技术有哪些
  • 至强处理器是mpp架构还是numa架构
Q1:比较smp 、ssmp 、cc -numa 、基于集群的mpp 及dsm 在体系结构的异同点?NUMA全称为Non-Uniform Memory Access , 是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构 。主流服务器一般由多个NUMA节点组成 , 每个NUMA节点是一个SMP结构 , 一般由多个CPU组成 , 并且具有本地内存和IO设备 。NUMA节点可以直接访问本地内存 , 也可以通过NUMA互联模块访问其他NUMA节点的内存 , 但是访问本地内存的速度远远高于远程访问速度 , 因此 , 开发程序要尽量减少不同NUMA节点之间的信息交互 。MPP是一种海量数据实时分析架构 。MPP作为一种不共享架构 , 每个节点运行自己的操作系统和数据库等 , 节点之间信息交互只能通过网络连接实现 。MPP架构目前被并行数据库广泛采用 , 一般通过scan、sort和merge等操作符实时返回查询结果 。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Googl jdjdzj e Dremel , 这些都是实时数据处理领域非常有特点的系统 , 尤其是Dremel可以轻松扩展到上千台服务器 , 并在数秒内完成TB级数据的分析 。Hadoop作为一个开源项目群本身和MPP并没有什么直接关系 , Hadoop中的子项目MapReduce虽然也是做数据分析处理的 , 但是一般只适用于离线数据分析 , 区别与MPP较为明显 。因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输 , 因此往往达不到实时处理的要求 。与MapReduce 相似的系统还有Microsoft Dryad和Google pregel 。综上所述 , NUMA是一种体系结构 , MPP是一种实时海量数据分析架构 , 而Hadoop是一个关于数据存储处理的项目群 , 其中的MapReduce是一种离线海量数据分析架构 。实测对比GreenPlum和Hive , GP比Hive性能高出至少一个数量级 , 但是大部分场景下 , 依然是秒级甚至分钟级的延迟 , 距离具体通常意义的实时毫秒级 , 差距巨大 。另外说一句 , 广义的Hadoop包括 Impala, PrestoDistributed SQL Query Engine for Big Data 这些MPP架构的SQL引擎 。Hadoop社区还在持续发展 , Spark还在持续给人们带来惊喜 , 开源软件的迷人之处也在于此 。
Q2:mpp架构横向扩展最多多少个节点没有这方面的经验 。但是我觉得吧 , 传统的数据库产生的时代 , 数据量远远没有现在这么大 。大量数据存入磁盘 , 大量数据读出的时候 , 自然就慢了 。只有多节点协同才能提供高并发性 。MPP不适合PB级(其实有部分MPP号称支持PB级
Q3:什么是数据库完全对等无共享的MPP架构MPP系统工作起来就像是一台单独的计算机 , 由于采用自动化的并行处理 , 在分析型数据仓库等OLAP应用中 , 查询性能比传统的单节点数据库大大提高 。采用统一的并行操作数据库引擎 , 将数据分散在不同的数据库节点上 , 在高速的内部网络环境下 , 对于海量数据的并发查询可极大地减少I/O , 提高查询效率 。
Q4:数据平台建设的方案有哪几种?1、常规数据仓库

数据仓库的重点 , 是对数据进行整合 , 同时也是对业务逻辑的一个梳理 。数据仓库虽然也可以打包成SAAS那种Cube一类的东西来提升数据的读取性能 , 但是数据仓库的作用 , 更多的是为了解决公司的业务问题 。

2、敏捷型数据集市

数据集市也是常见的一种方案 , 底层的数据产品与分析层绑定 , 使得应用层可以直接对底层数据产品中的数据进行拖拽式分析 。数据集市 , 主要的优势在于对业务数据进行简单的、快速的整合 , 实现敏捷建模 , 并且大幅提升数据的处理速度 。

3、MPP(大规模并行处理)架构


推荐阅读