清竹箭大数据与云计算( 三 )
本文插图
架构四大注意要素
本文插图
与Oracle性能关系最大的SGA
SGA包含三个部分:
l 数据缓冲区 , 是SGA的一个高速缓存区域 , 可避免重复读取常用的数据
l 日志缓冲区 , 提升了数据增删改的速度 , 减少磁盘的读写而加快速度
l 共享池 , 使相同的SQL语句不再编译 , 提升了SQL的执行速度 , 共享池的大小(以字节为单位)由init.ora文件参数SHARED_POOL_SIZE决定 。
数据库体系架构
本文插图
整体系统架构图
【清竹箭大数据与云计算】
本文插图
整体逻辑功能架构图
本文插图
大数据架构关键技术
本文插图
l 大数据存储技术
l 并行计算能力
l 数据分析技术
l 数据显示技术
l 数据挖掘算法
(三)Hadoop体系架构
1、Hadoop概述
Hadoop最初是一个由Apache软件基金会研发的一种分布式计算机系统 。 主要用来处理大于1TB的海量数据 。 Hadoop采用Java语言开发 , 其核心模块包括分布式文件系统(Hadoop Distri buted File System , Hadoop HDFS)和分布式计算框架MapReduce , HDFS为海量数据提供存储 , MapReduce为海量数据提供计算 , 这样的结构实现了计算与存储的高度耦合 , 成为大数据技术的事实标准 。
2、Hadoop发展史
l 12004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施 。
l 2005年12月— Nutch移植到新的框架 , Hadoop在20个节点上稳定运行 。
l 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展 。
l 2008年9月— Hive成为Hadoop的子项目
l 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
l 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目 。
l 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目 。
l 2010年5月— Avro脱离Hadoop项目 , 成为Apache顶级项目 。
l 2010年5月— HBase脱离Hadoop项目 , 成为Apache顶级项目 。
l 2010年9月— Hive( Facebook) 脱离Hadoop , 成为Apache顶级项目 。
l 2010年9月— Pig脱离Hadoop , 成为Apache顶级项目 。
l 2011年1月— ZooKeeper 脱离Hadoop , 成为Apache顶级项目 。
l 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards。
l 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise 。 Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机
l 2012年3月—在Hadoop1.0版的基础上发布Hadoop1.2.1稳定版
l 2013年10月—Hadoop2.2.0版本成功发布
l 2014年11月—Hadoop已经发展到了2.6.0版本
3、Hadoop的五大优点
1)高可靠性 。 Hadoop具有按位存储和处理数据的能力 。
2)高扩展性 。 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的 , 可以方便地扩展到其他节点中 。
推荐阅读
- 人群中国科学家通过古人基因组数据探寻中国文明源流
- 联想|联想个人云存储Mac版上线 苹果电脑用户数据备份更便捷
- 信息史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!
- 云创|真旺(徐州)大数据总经理李华领一行到访云创
- 主题马蜂窝大数据:大人小孩一起过“六一”,主题公园最受欢迎
- |6大数据可视化应用设计规范
- 链上|链上数据5月扫描:10000美元阻力下的链上百态
- 孜然实验室|DNA存储器突破了理论极限,一部手机装下全世界的数据
- 数据驶向智能海洋深处,华为存储的无尽想象
- 儿童节|【拼多多儿童节消费数据:购买儿童节礼物的成年人同比增长317%】