零基础学习大数据的学习路线是啥( 六 )
Spark入门Spark与Hadoop的比较Spark环境搭建实战:使用Spark完成单词计数Spark缓存策略Spark的transformation和actionSpark的容错机制Spark的核心组件Spark的各种RDDSpark的流计算第十四阶段:Oozie课程oozie是Hadoop生态系统中比较重要的框架,在系统中扮演的角色是工作流引擎服务器,用于运行Hadoop Map/Reduce任务工作流(包括MR、Hive、Pig、Sqoop等),企业中多由于整个项目流程任务调度。Oozie
Oozie入门介绍Oozie安装配置及其简单操作hPDL语言学习及流程定义oozie工作流配置及元数据库定义oozie定时任务调度和oozie API操作第十五阶段:Impala课程Impala是Cloudera公司参照 Google Dreme系统进行设计并主导开发的新型查询系统,它提供复杂SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala
Impala及其架构介绍Impala使用方法Impala配置及其调优Impala项目应用Impala和spark SQL对比第十六阶段:Kettle课程Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。ETL是指数据的抽取(extract)、转换(transform)、加载(load)至目的端。Kettle
kettle简介windows开发环境的搭建和使用linux下服务器的搭建和使用资源库、变量、共享库的配置kettle常用组件kettle的应用案例第十七阶段:Ganglia课程Ganglia是一个对于数以万计的节点的各个指标的图表监控框架,提供完整的一套图形监控界面,支持C、C++、Python扩展自定义指标和用户视图。Ganglia
ganglia的基本原搭建和使用ganglia监控服务器的指标配置和使用ganglia监控大数据hadoop和habase集群、flume监控编写和使用自定义指标第十八阶段:Tachyon课程Tachyon是一个开源分布式内存存储系统,拥有高性能、高容错等优点。并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务,官方号称最高比HDFS吞吐量高300倍。Tachyon
Tachyon简介Tachyon架构详解Tachyon安装Tachyon参数配置Tachyon结合Hadoop使用Tachyon结合Spark使用第十九阶段:Solr课程
Solr简介Solr安装部署Solr example详解solr配置信息详解solr fact查询solr复杂查询自定义中文分词工具和词库使用solrj实现java操作solrsolr高亮组件solr优化solr主从结构部署solrcloud集群安装部署solr实现应用第二十阶段:elasticsearch课程elasticsearch
elasticsearch简介elasticsearch和solr的对比elasticsearch安装部署elasticsearch service wrapper启动插件使用curl操作elasticsearch索引库elasticsearch DSL查询elasticsearch批量查询meetelasticsearch批量操作bulkelasticsearch插件介绍elasticsearch配置文件详解java操作elasticsearchelasticsearch的分页查询elasticsearch中文分词工具的集成elasticsearch优化elasticsearch集群部署第二十一阶段:多线程课程多线程
线程管理线程的同步,包括使用synchronized、lock、定时器、信号量等线程池的创建和管理并发集合的使用第二十二阶段:Java虚拟机优化课程Java虚拟机优化
认识jvmjava 内存区域与内存的分配垃圾收集器与回收机制虚拟机性能监控与故障处理常用工具线程安全与锁优化大数据中的jvm 优化第二十三阶段:Python课程Python
Python 简介Python 基本语法使用 Python 写 MapReduce 程序、Spark 程序第二十四阶段:Mahout课程Mahout是数据挖掘和机器学习领域的利器,本课程是带领大家进入到这个领域中。课程内容包括Mahout体系结构介绍、Mahout如何在推荐、分类、聚类领域中使用。Mahout
Mahout是什么,有哪些应用场景Mahout机器学习环境的搭建和部署Mahout中支持哪些高大上的算法使用Mahout完成推荐引擎实战:实现基于web访问的推荐程序什么是聚类基于Mahout的常见聚类算法,如k-means算法实战:实现新闻内容的聚类什么是分类分类的工作原理提取特征构建分类器实战:构建分类服务器第二十五阶段:实战项目xx论坛日志分析(录播): 该项目的数据来自于黑马程序员(http://edu.csdn.NET/)论坛的日志,该项目是为本课程量身定做的,非常适合我们hadoop课程学习。有的同学觉得应该介绍更多项目,其实做过几个项目后,就会发现项目的思路是相同的,只是业务不同而已。大家写过这个项目后,就对hadoop的各个框架在项目中是如何使用的,有个比较清晰的认识,对hadoop与javaEE结合有个比较清晰的认识了。 注:很多学员进入公司后发现,公司中大部分hadoop日志分析项目,都是该项目的开发过程,千真万确!xx论坛日志分析(录播)
推荐阅读
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 甘肃天水落地脱贫“基础工程”见效累计减贫92.08万人
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 现在在线学习视频有很多了,为啥大部分人还是喜欢下载下来观看
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据
- 婴儿|美国儿科学会: 1岁以下婴儿不推荐学习游泳
- 在美国大学学习computer science 是啥样的体验