清竹箭大数据与云计算( 三 )



清竹箭大数据与云计算
本文插图

架构四大注意要素

清竹箭大数据与云计算
本文插图

与Oracle性能关系最大的SGA
SGA包含三个部分:
l 数据缓冲区 , 是SGA的一个高速缓存区域 , 可避免重复读取常用的数据
l 日志缓冲区 , 提升了数据增删改的速度 , 减少磁盘的读写而加快速度
l 共享池 , 使相同的SQL语句不再编译 , 提升了SQL的执行速度 , 共享池的大小(以字节为单位)由init.ora文件参数SHARED_POOL_SIZE决定 。
数据库体系架构

清竹箭大数据与云计算
本文插图

整体系统架构图
【清竹箭大数据与云计算】
清竹箭大数据与云计算
本文插图

整体逻辑功能架构图

清竹箭大数据与云计算
本文插图

大数据架构关键技术

清竹箭大数据与云计算
本文插图

l 大数据存储技术
l 并行计算能力
l 数据分析技术
l 数据显示技术
l 数据挖掘算法
(三)Hadoop体系架构
1、Hadoop概述
Hadoop最初是一个由Apache软件基金会研发的一种分布式计算机系统 。 主要用来处理大于1TB的海量数据 。 Hadoop采用Java语言开发 , 其核心模块包括分布式文件系统(Hadoop Distri buted File System , Hadoop HDFS)和分布式计算框架MapReduce , HDFS为海量数据提供存储 , MapReduce为海量数据提供计算 , 这样的结构实现了计算与存储的高度耦合 , 成为大数据技术的事实标准 。
2、Hadoop发展史
l 12004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施 。
l 2005年12月— Nutch移植到新的框架 , Hadoop在20个节点上稳定运行 。
l 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展 。
l 2008年9月— Hive成为Hadoop的子项目
l 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
l 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目 。
l 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目 。
l 2010年5月— Avro脱离Hadoop项目 , 成为Apache顶级项目 。
l 2010年5月— HBase脱离Hadoop项目 , 成为Apache顶级项目 。
l 2010年9月— Hive( Facebook) 脱离Hadoop , 成为Apache顶级项目 。
l 2010年9月— Pig脱离Hadoop , 成为Apache顶级项目 。
l 2011年1月— ZooKeeper 脱离Hadoop , 成为Apache顶级项目 。
l 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards。
l 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise 。 Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机
l 2012年3月—在Hadoop1.0版的基础上发布Hadoop1.2.1稳定版
l 2013年10月—Hadoop2.2.0版本成功发布
l 2014年11月—Hadoop已经发展到了2.6.0版本
3、Hadoop的五大优点
1)高可靠性 。 Hadoop具有按位存储和处理数据的能力 。
2)高扩展性 。 Hadoop是在可用的计算机集簇间分配数据并完成计算任务的 , 可以方便地扩展到其他节点中 。


推荐阅读