零基础学习大数据的学习路线是啥( 五 )


Hive的存储除了普通文件格式,也包括序列化文件格式和列式存储格式。讲解分别如何使用他们,已经何种场景下使用他们。最后讲解如何自定义数据存储格式。(理论所占比重★★★ 实战所占比重★★)Hive的性能调优
终于来到性能调优部分。我们会讲解本地模式、严格模式、并行执行、join优化等内容。通过实验对比发现优化手段的价值所在。这是整个课程的精华,也是我们以后工作能力的最重要的体现。(理论所占比重★ 实战所占比重★★★★)项目实战
我们会通过一个电信项目来把前面的内容综合运用起来。这是一个来自于真实工作环境的项目,学习如何使用各个知识点满足项目要求。并有真实数据提供给大家,供大家课下自己练习。(理论所占比重★ 实战所占比重★★★★)杂记
包括一些琐碎知识点,比如视图、索引、与HBase整合等。这些不好归入前面的某个章节,单独列出。并且根据学员就业面试情况,也不会不断增补内容。(理论所占比重★★★ 实战所占比重★★)第七阶段:Sqoop课程sqoop适用于在关系数据库与hdfs之间进行双向数据转换的,在企业中,非常常用。Sqoop
Sqoop是什么实战:讲解Sqoop如何把mysql中的数据导入到hdfs中实战:讲解Sqoop如何把hdfs中的数据导出到mysql中Sqoop如何做成job,方便以后快速执行第八阶段:Flume课程Flume是cloudera公布的分布式日志收集系统,是用来把各个的服务器中数据收集,统一提交到hdfs或者其他目的地,是hadoop存储数据的来源,企业中非常流行。Flume
Flume是什么详细Flume的体系结构讲述如何书写flume的agent配置信息实战:flume如何动态监控文件夹中文件变化实战:flume如何把数据导入到hdfs中实战:讲解如何通过flume动态监控日志文件变化,然后导入到hdfs中第九阶段:Kafka课程Kafka是消息系统,类似于ActiveMQ、RabbitMQ,但是效率更高。Kafka
kafka是什么kafka体系结构kafka的安装kafka的存储策略kafka的发布与订阅使用Zookeeper协调管理实战:Kafka和Storm的综合应用第十阶段:Storm课程Storm是专门用于解决实时计算的,与hadoop框架搭配使用。本课程讲解Storm的基础结构、理论体系,如何部署Storm集群,如何进行本地开发和分布式开发。通过本课程,大家可以进入到Storm殿堂,看各种Storm技术文章不再难,进行Storm开发也不再畏惧。Storm
Storm是什么,包括基本概念和应用领域Storm的体系结构、工作原理Storm的单机环境配置、集群环境配置Storm核心组件,包括Spout、Bolt、Stream Groupings等等Storm如何实现消息处理的安全性,保证消息处理无遗漏Storm的批处理事务处理实战:使用Storm完成单词计数等操作实战:计算网站的pv、uv等操作第十一阶段:Redis课程Redis是一款高性能的基于内存的键值数据库,在互联网公司中应用很广泛。Redis
redis特点、与其他数据库的比较如何安装redis如何使用命令行客户端redis的字符串类型redis的散列类型redis的列表类型redis的集合类型如何使用java访问redisredis的事务(transaction)redis的管道(pipeline)redis持久化(AOF+RDB)redis优化redis的主从复制redis的sentinel高可用redis3.x集群安装配置第十二阶段:Scala课程Scala是学习Spark的必备基础语言,必须要掌握的。Scala
scala解释器、变量、常用数据类型等scala的条件表达式、输入输出、循环等控制结构scala的函数、默认参数、变长参数等scala的数组、变长数组、多维数组等scala的映射、元祖等操作scala的类,包括bean属性、辅助构造器、主构造器等scala的对象、单例对象、伴生对象、扩展类、apply方法等scala的包、引入、继承等概念scala的特质scala的操作符scala的高阶函数(这是重点,spark的原代码几乎全是高阶函数)scala的集合第十三阶段:Spark课程学习大数据加QQ群:805127855Spark是一款高性能的分布式计算框架,传言比MapReduce计算快100倍,本课程为你揭秘。Spark


推荐阅读