大数据基础架构Hadoop( 六 )


2)ZooKeeper 。ZooKeeper主要用于保证集群各项功能的正常进行 , 并能够在功能出现异常时及时通知集群进行处理 , 保持数据一致性 。ZooKeeper是对整个集群进行监控 , 可解决分布式环境下的数据管理问题 。
3)HBase 。HBase是一个针对非结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库 。HBase提供了对大规模数据的随机、实时读写访问 。同时 , HBase中保存的数据可以使用MapReduce进行处理 。HBase将数据存储和并行计算很好地结合在一起 。
4)Spark 。Spark是一种快速、通用、可扩展的大数据处理引擎 , 继承了MapReduce分布式计算的优点并改进了MapReduce明显的缺点 。Spark的中间输出结果可以保存在内存中 , 因此能更好地适用于数据挖掘与机器学习中迭代次数较多的算法 。
5)Flume 。Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统 , 适用于日志文件的采集 。
6)Kafka 。Kafka是一个分布式的基于发布/订阅模式的消息队列 , 主要应用于大数据实时处理领域 。Kafka是一个事件流平台 , 能够连接其他数据源进行持续的数据导入或导出 , 并且可以根据需求持久可靠地存储数据 。
本文转载于http://blog.itpub.NET/70024420/viewspace-2928855/ , 作者摘编于《Hadoop与大数据挖掘》 。




推荐阅读