大数据基础架构Hadoop( 五 )


3)ApplicationMaster(AM) 。在用户提交每个应用程序时 , 系统会生成一个ApplicationMaster并保存到提交的应用程序里 。ApplicationMaster的主要功能如下 。
 

  • 与ResourceManager调度器协商以获取资源(用Container表示) 。
  • 对得到的任务进行进一步分配 。
  • 与NodeManager通信以启动或停止任务 。
  • 监控所有任务运行状态 , 在任务运行失败时重新为任务申请资源并重启任务 。 
4)Client Application 。Client Application是客户端提交的应用程序 。客户端会将应用程序提交到RM , 然后RM将创建一个Application上下文件对象 , 再设置AM必需的资源请求信息 , 最后提交至RM 。
02
Hadoop应用场景介绍
在大数据背景下 , Apache Hadoop作为一种分布式存储和计算框架 , 已经被广泛应用到各行各业 , 业界对于Hadoop这一开源分布式技术的应用也在不断地拓展中 。了解Hadoop的应用场景 , 从而可以更深刻地了解Hadoop在实际生活中的应用 。
1)在线旅游 。目前全球范围内大多数在线旅游网站都使用了Cloudera公司提供的Hadoop发行版 , Expedia作为全球最大的在线旅游公司也在使用Hadoop 。在国内目前比较受欢迎的一些旅游网站如携程、去哪儿网等也采用了大数据技术对数据进行存储和计算 。
2)移动数据 。中国移动于2010年5月正式推出大云BigCloud 1.0 , 集群节点达到了1024个 。华为对Hadoop的HA方案及HBase领域也有深入研究 , 并已经向业界推出了自己的基于Hadoop的大数据解决方案 。
3)电子商务 。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户 , 为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务 。
4)诈骗检测 。一般金融服务或政府机构会使用Hadoop存储所有的客户交易数据 , 包括一些非结构化的数据 , 以帮助机构发现客户的异常活动 , 预防欺诈行为 。例如国内支付宝、微信钱包这类庞大的互联网支付平台 , 对诈骗、黑客、病毒的防护都十分重视 , 均使用大数据技术进行诈骗检测 , 以保障线上资金的安全 。
5)IT安全 。除企业IT基础机构的管理外 , Hadoop还可以用于处理机器生成的数据以便识别出来自恶意软件或网络中的攻击 。国内奇虎360安全软件在应用方面也使用Hadoop的HBase组件进行数据存储 , 缩短了异常恢复的时间 。
6)医疗保健 。医疗行业也可以使用Hadoop , 如IBM Watson技术平台使用Hadoop集群作为语义分析等高级分析技术的基础 。医疗机构可以利用语义分析为患者提供医护人员 , 并协助医生更好地为患者进行诊断 。
7)搜索引擎 。我们在使用搜索引擎的过程中会产生大规模的数据 , 此时 , 使用Hadoop进行海量数据挖掘可以提高数据处理的效率 。国外的雅虎已将Hadoop应用到搜索引擎中 , 国内的百度和阿里巴巴也将Hadoop应用到搜索引擎、推荐、数据分析等多个领域 。
8)社交平台 。目前网络社交已经成为人们日常生活的一部分 , 网络社交平台每天产生的数据量十分庞大 。腾讯和脸书作为国内外的大型社交平台 , 在数据库存储方面均利用了Hadoop生态系统中的Hive组件进行数据存储和处理 。
03
Hadoop生态系统
Hadoop经过多年的发展 , 已经形成了一个相当成熟的生态系统 。现代生活节奏快速 , 各行各业无时无刻产生着大量的数据 , Hadoop发挥着重要的作用 。因为各行各业的需求不同 , 很多时候需要在Hadoop的基础上进行一些改进和优化 , 也因此产生了许多围绕Hadoop衍生的工具 , 逐渐地演变成一个庞大的Hadoop生态系统 , 如图5所示 。
大数据基础架构Hadoop

文章插图
图5 Hadoop生态系统
Hadoop生态系统中常用的组件列举如下 , 不同的组件分别提供特定的服务 。
1)Hive 。Hive是建立在Hadoop基础上的数据仓库基础框架 , 提供了一系列工具 , 可存储、查询和分析存储在Hadoop中的大规模数据 。Hive定义了一种类SQL语言为HQL , 该语言编写的查询语句在Hive的底层将转换为复杂的MapReduce程序 , 运行在Hadoop大数据平台上 。


推荐阅读