八.Kafka(流处理平台)
Kafka 是在大数据流处理场景中经常使用的分布式消息系统,配合 Spark 内存计算框架,是流处理场景中的黄金组合 。本课程以实战的方式学习 Kafka 分布式消息系统,包括 Kafka 的安装配置、Producer API 的使用、Consumer API 的使用以及与第三方框架(Flume、 Spark Streaming)的集成开发 。每个知识点的学习,都有编程实战和操作实战,用眼见为 实的方式学习抽象的理论概念 。
1.Kafka 入门
2.Kafka 集群搭建理论与实践
3.Kafka Topic 实战
4.Kafka 开发 Producer 理论与实践
5.Kafka 开发 consumer 理论与实践
6.Kafka 发送和接收结构化数据
7.Kafka 发送和接收非结构化数据
8.Kafka 整合 Flume 框架
9.spark 读取 kafka 数据
九、Spark Core
Spark 内存计算框架,是当前最流行的大数据计算框架,Spark 已经成为大数据开发人员以 及数据科学家的必备工具 。
本课程主要学习 Spark Core 的内容 。包括 Spark 集群安装、Spark 开发环境搭建,Spark Core 编程模型、Spark 程序运行原理、Spark 性能调优等 。
1.Spark 的起源及其哲学思想
2.Spark 集群的安装、启动、测试
3.Spark 基本架构及 API 介绍
4.Spark 开发环境搭建并开发运行 wordCount 程序(Scala、 Java)
5.wordCount 程序的集群部署及 Spark UI 简介
6.Spark 计算框架的核心抽象--RDD(理论及入门)
7.Spark RDD创建实战(Scala、 Java)
8.Spark RDD 操作--transformation 算子实战(Scala、 Java)
9.Spark RDD 操作--action 算子实战(Scala、 Java)
10.Spark RDD计算结果保存实战(Scala、 Java)
11.Spark RDD 缓存及持久化实战(Scala、 Java)
12.Spark 分布式共享变量实战--累加器和广播变量(Scala、 Java)
13.Spark 程序集群部署方式实战
14.Spark 程序运行流程分析
15.Spark 程序的监控和调试
16.Spark 内核解读
17.Spark 性能调优(shuffle)
18.Spark Core 数据分析实战
19. Spark内存管理模型
20. Spark性能调优(shuffle)
21. Spark源码阅读入门
十.Spark SQL
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣扣群:740041381,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
本课程将深入浅出学习 Spark 的结构化 API(DataFrame、Dataset 和 SQL) 。SparkSQL 是在大数据项目中,Spark 开发工程师经常使用的 Spark 模块,除了深入讲解 SparkSQL 本身的每个知识点、SparkSQL 性能调优,还会涉及到 HDFS、Hive、HBase、MongoDB、 Oracle、MySQL 等第三方数据存储框架 。每个知识点都以代码实战的方式讲解,知其然,更知其所以然 。
1.Spark SQL 背景介绍
2.SparkSQL、 DataFrame、 Dataset 之间的关系
3.SparkSQL 概述
4.SparkSQL 数据类型
5.SparkSQL join 操作实战
6.SparkSQL 读写数据实战
7.SparkSQL 操作 Hive 中的数据
8.SparkSQL 调优
9.SparkSQL 数据分析案例实战
10. Spark SQL join操作实战及调优
11. SparkSQL UDAF开发实战
12. SparkSQL窗口函数实战
13. SparkSQL数据分析案例1(购物网站数据分析)
14. SparkSQL数据分析案例2(交通车辆—套牌车分析)
十一.Spark Streaming(流处理平台)
Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点 。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由高阶函数map、reduce、join、window等组成的复杂算法计算出数据 。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中 。事实上,你可以将处理后的数据应用到Spark的机器学习算法、 图处理算法中去 。
1.Spark Streaming 框架机制
2.Spark Streaming 时间和窗口的概念
3.Spark Streaming DStream和RDD的关系
4.Spark Streaming 性能调优
5. Spark Streaming整合Kafka的两种方式
6. SparkStreaming整合kafka:如何实现exactly once消费语义
7. Spark Streaming数据分析案例:黑名单过滤
实战项目:读取kafka数据做聚合处理,条件过滤后写入HDFS
十二、Spark ML(机器学习算法)
理论基础:Spark MLlib 概述、数据结构、应用场景Spark实现回归算法、分类算法、算法原理概述等 。
1. 推荐系统介绍和系统原理
推荐阅读
- 抖音直播带货违规都有哪些 抖音直播带货会一直火下去吗
- 自卑的人通常都会有两个习惯 要改掉
- 想喝酸奶又怕凉怎么办?
- “中年发福”是一把杀猪刀 慢性病都因为它
- 高血糖的危害有哪些?这些都是高血糖引起
- 白羊女最终都嫁给了谁 千万别娶白羊女
- 坐月子能做面膜吗
- |干货丨脱发星人必看8款防脱产品测评!防脱、去油都不是问题,建议点赞收藏!!
- 抖音怎么快速涨粉?这几点业内人士都清楚
- #净网2019# 注意!这四种微商模式都是传销,小心别入坑!