大数据基础架构Hadoop( 二 )


3)数据从多个节点读取 。读取一个文件时 , 从多个节点中找到该文件的数据块 , 分别读取所有数据块 , 直至最后一个数据块读取完毕 。
HDFS是一个主/从(Master/Slave)体系架构的分布式文件系统 。HDFS支持传统的层次型文件组织结构 , 使得用户或应用程序可以创建目录 , 再将文件保存至目录中 。文件系统命名空间的层次结构和大多数现有的文件系统类似 , 可以通过文件路径对文件执行创建、读取、更新和删除操作 。HDFS的基本架构如图2所示 。
2Hadoop的特点
Hadoop是一个能够让用户轻松搭建和使用的分布式计算平台 , 能够让用户轻松地在Hadoop上开发和运行处理海量数据的应用程序 。Hadoop的主要特点如下 。
1)高可靠性 。Hadoop的数据存储有多个备份 , 集群部署在不同机器上 , 可以防止一个节点宕机造成集群损坏 。当数据处理请求失败时 , Hadoop将自动重新部署计算任务 。
2)高扩展性 。Hadoop是在可用的计算机集群间分配数据并完成计算任务的 。为集群添加新的节点并不复杂 , 因此可以很容易地对集群进行节点的扩展 。
3)高效性 。Hadoop可以在节点之间动态地移动数据 , 在数据所在节点进行并行处理 , 并保证各个节点的动态平衡 , 因此处理速度非常快 。
4)高容错性 。Hadoop的分布式文件系统HDFS在存储文件时将在多台机器或多个节点上存储文件的备份副本 , 当读取该文件出错或某一台机器宕机时 , 系统会调用其他节点上的备份文件 , 保证程序顺利运行 。
5)低成本 。Hadoop是开源的 , 即不需要支付任何费用即可下载并安装使用 , 节省了购买软件的成本 。
6)可构建在廉价机器上 。Hadoop不要求机器的配置达到极高的标准 , 大部分普通商用服务器即可满足要求 , 通过提供多个副本和容错机制提高集群的可靠性 。
7)Hadoop基本框架是基于Java语言编写的 。Hadoop是一个基于Java语言开发的框架 , 因此运行在Linux系统上是非常理想的 。Hadoop上的应用程序也可以使用其他语言编写 , 如C++和Python 。
3Hadoop存储框架—HDFS
HDFS是一种旨在普通硬件上运行的分布式文件系统 , 与现有的分布式文件系统有许多相似之处 , 但也存在明显的区别 。HDFS具有非常好的容错能力 , 旨在部署在低成本硬件上 。HDFS支持对应用程序数据进行高吞吐量访问 , 并且适用于具有海量数据集的读写 。HDFS是Hadoop的核心组件之一 , 用于存储数据 。
HDFS简介及架构
HDFS是以分布式进行存储的文件系统 , 主要负责集群数据的存储与读取 。分布式系统可以划分成多个子系统或模块 , 各自运行在不同的机器上 , 子系统或模块之间通过网络通信进行协作 , 以实现最终的整体功能 。利用多个节点共同协作完成一项或多项具体业务功能的系统即为分布式系统 。
HDFS作为一个分布式文件系统 , 其分布式主要体现在如下3个方面 。
1)HDFS并不是一个单机文件系统 , 而是分布在多个集群节点上的文件系统 。节点之间通过网络通信进行协作 , 提供多个节点的文件信息 , 使每个用户均可以看到文件系统的文件 , 使多台机器上的多用户可以分享文件和存储空间 。
2)当存储文件时 , 文件的数据将分布在多个节点上 。数据存储不是按一个文件存储 , 而是将一个文件分成一个或多个数据块进行存储 。数据块在存储时并不是都存储在一个节点上 , 而是被分别存储在各个节点中 , 并且数据块会在其他节点存储副本 。
3)数据从多个节点读取 。读取一个文件时 , 从多个节点中找到该文件的数据块 , 分别读取所有数据块 , 直至最后一个数据块读取完毕 。
HDFS是一个主/从(Master/Slave)体系架构的分布式文件系统 。HDFS支持传统的层次型文件组织结构 , 使得用户或应用程序可以创建目录 , 再将文件保存至目录中 。文件系统命名空间的层次结构和大多数现有的文件系统类似 , 可以通过文件路径对文件执行创建、读取、更新和删除操作 。HDFS的基本架构如图2所示 。

大数据基础架构Hadoop


推荐阅读