2)ZooKeeper 。ZooKeeper主要用于保证集群各项功能的正常进行 , 并能够在功能出现异常时及时通知集群进行处理 , 保持数据一致性 。ZooKeeper是对整个集群进行监控 , 可解决分布式环境下的数据管理问题 。
3)HBase 。HBase是一个针对非结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库 。HBase提供了对大规模数据的随机、实时读写访问 。同时 , HBase中保存的数据可以使用MapReduce进行处理 。HBase将数据存储和并行计算很好地结合在一起 。
4)Spark 。Spark是一种快速、通用、可扩展的大数据处理引擎 , 继承了MapReduce分布式计算的优点并改进了MapReduce明显的缺点 。Spark的中间输出结果可以保存在内存中 , 因此能更好地适用于数据挖掘与机器学习中迭代次数较多的算法 。
5)Flume 。Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统 , 适用于日志文件的采集 。
6)Kafka 。Kafka是一个分布式的基于发布/订阅模式的消息队列 , 主要应用于大数据实时处理领域 。Kafka是一个事件流平台 , 能够连接其他数据源进行持续的数据导入或导出 , 并且可以根据需求持久可靠地存储数据 。
本文转载于http://blog.itpub.NET/70024420/viewspace-2928855/ , 作者摘编于《Hadoop与大数据挖掘》 。
推荐阅读
- 三种数据不要放入数据库中
- 基于dispatcher模式的事件与数据分发处理器的go语言实现
- 一生中最重要的事,代表作 金黄的大斗笠ppt?《金黄的大斗笠》的作者高风的详细介绍?
- 曹晓洁的介绍 曹晓洁报道
- 肖战|《芒果台》官宣肖战蝉联大奖!海外票数破300万,继续破圈闯世界
- 最强大脑|连续三场表现平庸的朱科祺,会不会是节目组安排的一个反转大棋子
- 这才是炸带鱼的正确做法 炸带鱼的做法大全
- 特鲁姆普vs利索夫斯基直播前瞻 世界斯诺克大奖赛直播
- CCTV模特大赛冠军出身 2007cctv模特大赛
- 茭白要焯水不 茭白要焯水吗