搭建大数据平台具体的流程和步骤( 二 )


(5)选择数据挖掘工具
Hive可以将结构化的数据映射为一张数据库表 , 并提供HQL的查询功能 , 它是建立在Hadoop之上的数据仓库基础架构 , 是为了减少MapReduce编写工作的批处理系统 , 它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据 。 Impala是对Hive的一个补充 , 可以实现高效的SQL查询 , 但是Impala将整个查询过程分成了一个执行计划树 , 而不是一连串的MapReduce任务 , 相比Hive有更好的并发性和避免了不必要的中间sort和shuffle 。
Spark可以将Job中间输出结果保存在内存中 , 不需要读取HDFS , Spark启用了内存分布数据集 , 除了能够提供交互式查询外 , 它还可以优化迭代工作负载 。 Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器 , 用户可以通过http请求 , 向搜索引擎服务器提交一定格式的XML , 生成索引 , 或者通过HTTP GET操作提出查找请求 , 并得到XML格式的返回结果 。
还可以对数据进行建模分析 , 会用到机器学习相关的知识 , 常用的机器学习算法 , 比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等 。
(6)数据的可视化以及输出API
对于处理得到的数据可以对接主流的BI系统 , 比如国外的Tableau、Qlikview、PowrerBI等 , 国内的SmallBI和新兴的网易有数(可免费试用)等 , 将结果进行可视化 , 用于决策分析;或者回流到线上 , 支持线上业务的发展 。
成熟的搭建一套大数据分析平台不是一件简单的事情 , 本身就是一项复杂的工作 , 在这过程中需要考虑的因素有很多 , 比如:
1.稳定性:可以通过多台机器做数据和程序运行的备份 , 但服务器的质量和预算成本相应的会限制平台的稳定性;
2.可扩展性:大数据平台部署在多台机器上 , 如何在其基础上扩充新的机器是实际应用中经常会遇到的问题;
【搭建大数据平台具体的流程和步骤】3.安全性:保障数据安全是大数据平台不可忽视的问题 , 在海量数据的处理过程中 , 如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点 。


推荐阅读