清竹箭大数据与云计算( 四 )
3)高效性 。 Hadoop能够在节点之间动态地移动数据 , 并保证各个节点的动态平衡 , 具有较快的处理速度 。
4)高容错性 。 Hadoop能够自动保存数据的多个副本 , 并自动将失败的任务重新分配 。
5)低成本 。 Hadoop是开源的 , 项目的软件成本因此会大大降低 。
4、Hadoop的版本选择
当前Hadoop版本比较混乱 , 让用户不知道怎样选择 , 实际上 , 目前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0 。 其中 , Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成 , 而Hadoop 2.0则由一个支持NameNode横向扩展的HDFS , 一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce 。 相比于Hadoop 1.0 , Hadoop 2.0功能更加强大 , 且具有更好的扩展性 , 并支持多种计算框架 。 我们在选择使用某个开源环境时 , 通常会考虑几个因素:a.是否是免费的开源软件b.版本是否稳定c.是否有强大的实践验证及出现故障后是否有一个强大的社区支持 , 快速获取问题的解决方法 。
本文插图
5、Hadoophe核心组件
l HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统 。 他是一个高度容错性的系统 , 适合部署在廉价的机器上 , 能提供高吞吐量的数据访问 , 非常适合大规模数据集上的应用 。
l MapReduce:MapReduce是一种编程模型 , MapReduce是面向大数据并行处理的计算模型、框架和平台 , 它隐含了以下三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运行软件框架(Software Framework);3)是一个并行程序设计模型与方法(Programming Model & Methodology) 。
l 其他:HBase: 类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具 , 可以将结构化的数据文件映射为一张数据库表 , 并提供完整的sql查询功能 , 可以sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁 , 提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具 , 将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台 , 为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递 。
6、上机与项目实训
1)安装虚拟机和linux , 虚拟机推荐使用vbox或vmware , PC可以使用workstation , 服务器可以使用ESXi , 在管理上比较方便 。 可以使用复制虚拟机功能简化准备流程 。 如果只是实验用途 , 内存分配可以在1G左右 , 硬盘大约预留20-30G空间即可 。
2)以Centos为例 , 分区可以选择默认 , 安装选项选择Desktop Gnome , 以及Server、Server GUI即可 。 其它Linux , 注意选项里应包括ssh , vi(用于编辑配置文件) , perl等(有些脚本里包含perl代码需要解析)
3)到Oracle官网下载java jdk安装包
4)安装Linux后一定要确认iptables,selinux等防火墙或访问控制机制已经关闭 , 否则实验很可能受影响
推荐阅读
- 人群中国科学家通过古人基因组数据探寻中国文明源流
- 联想|联想个人云存储Mac版上线 苹果电脑用户数据备份更便捷
- 信息史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!
- 云创|真旺(徐州)大数据总经理李华领一行到访云创
- 主题马蜂窝大数据:大人小孩一起过“六一”,主题公园最受欢迎
- |6大数据可视化应用设计规范
- 链上|链上数据5月扫描:10000美元阻力下的链上百态
- 孜然实验室|DNA存储器突破了理论极限,一部手机装下全世界的数据
- 数据驶向智能海洋深处,华为存储的无尽想象
- 儿童节|【拼多多儿童节消费数据:购买儿童节礼物的成年人同比增长317%】