搭建大数据平台具体的流程和步骤( 二 ) 面对海量的各种来源的数据

（5）选择数据挖掘工具
Hive可以将结构化的数据映射为一张数据库表，并提供HQL的查询功能，它是建立在Hadoop之上的数据仓库基础架构，是为了减少MapReduce编写工作的批处理系统，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。 Impala是对Hive的一个补充，可以实现高效的SQL查询，但是Impala将整个查询过程分成了一个执行计划树，而不是一连串的MapReduce任务，相比Hive有更好的并发性和避免了不必要的中间sort和shuffle 。
Spark可以将Job中间输出结果保存在内存中，不需要读取HDFS ， Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML ，生成索引，或者通过HTTP GET操作提出查找请求，并得到XML格式的返回结果。
还可以对数据进行建模分析，会用到机器学习相关的知识，常用的机器学习算法，比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。
（6）数据的可视化以及输出API
对于处理得到的数据可以对接主流的BI系统，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数（可免费试用）等，将结果进行可视化，用于决策分析；或者回流到线上，支持线上业务的发展。
成熟的搭建一套大数据分析平台不是一件简单的事情，本身就是一项复杂的工作，在这过程中需要考虑的因素有很多，比如：
1.稳定性：可以通过多台机器做数据和程序运行的备份，但服务器的质量和预算成本相应的会限制平台的稳定性；
2.可扩展性：大数据平台部署在多台机器上，如何在其基础上扩充新的机器是实际应用中经常会遇到的问题；
【搭建大数据平台具体的流程和步骤】3.安全性：保障数据安全是大数据平台不可忽视的问题，在海量数据的处理过程中，如何防止数据的丢失和泄漏一直是大数据安全领域的研究热点。

搭建大数据平台具体的流程和步骤( 二 )

推荐阅读

盛夏书香|我们不能只有省省省的态度，孩子看见玩具就想买？对待金钱

『搞笑大喇叭』一天在路口起步熄火了，她打开双闪下了车，笑话：表姐刚拿驾照

怎样看待教师在上课中夹带私货（泛指人生道理）的行为

微信公众号“健康广东”|广东新增境外输入确诊5例、无症状感染者8例，均为广州报告

开一家儿童益智玩具店怎么样杭州巧天才玩具总部地址

本田urv|8月销量最惨的十大轿车榜单，这个品牌占5款，或将退出中国市场

真想买套小户型照着它装，既可住家又可当工作室，一人独享太爽了

北京将新增三条铛铛车夜景游线路

高超音速|全球最快导弹亮相，15分钟直达美本土，宙斯盾都来不及反应

花香|在家里养盆“醉酒杨妃”花姿琼花玉叶，花香醉人，比菊花还美

歌声|周深首登《流淌的歌声》，直呼被“榨干”

亲人被同事无故背地里骂咋办

风雪中站岗军人站岗的战士手里紧握着

你可能不了解这3件事，早认识早受益乙肝知识

古今医案研读|古今医案研读：广中医教授周福生治萎缩性胃炎伴肠化三

家常老干妈豆腐，不一样的麻婆豆腐，做法超简单的下饭菜，特美味

羽毛球从零基础到入门羽毛球训练

1522年是哪个朝代 1522年是什么朝代

『中金网』布局非接触经济，佳都科技发布商用智能人脸测温新品

萌主妈咪育儿经|妈妈记得要读懂，男孩为何爱“粘”妈妈？背后的心理暗示