产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单

海量的数据处理问题 , 对其进行处理是一项艰巨而复杂的任务 。 原因有以下几个方面:
数据量过大
数据中什么情况都可能存在 。 如果说有10条数据 , 那么大不了每条去逐一检查 , 人为处理 , 如果有上百条数据 , 也可以考虑 , 如果数据上到千万级别 , 甚至过亿 , 那不是手工能解决的了 , 必须通过工具或者程序进行处理 , 尤其海量的数据中 , 什么情况都可能存在 , 例如 , 数据中某处格式出了问题 , 尤其在程序处理时 , 前面还能正常处理 , 突然到了某个地方问题出现了 , 程序终止了 。
软硬件要求高
系统资源占用率高 。 对海量的数据进行处理 , 除了好的方法 , 最重要的就是合理使用工具 , 合理分配系统资源 。 一般情况 , 如果处理的数据过TB级 , 小型机是要考虑的 , 普通的机子如果有好的方法可以考虑 , 不过也必须加大CPU和内存 , 就象面对着千军万马 , 光有勇气没有一兵一卒是很难取胜的 。
要求很高的处理方法和技巧
这也是本文的写作目的所在 , 好的处理方法是一位工程师长期工作经验的积累 , 也是个人的经验的总结 。 没有通用的处理方法 , 但有通用的原理和规则 。
大数据处理技术发展多年 , 已经很多先进的海量数据处理方案 , 从以前的离线批处理计算 , 到现在的流式计算、图计算等领域快速发展 , 今天我们就来推荐一份海量数据处理书单给各位 。
海量数据处理系列书单
产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单
文章图片
Storm分布式实时计算模式
《Storm分布式实时计算模式》由ApacheStorm项目核心贡献者吉奥兹、奥尼尔亲笔撰写 , 融合了作者丰富的Storm实战经验 , 通过大量示例 , 全面而系统地讲解使用Storm进行分布式实时计算的核心概念及应用 , 并针对不同的应用场景 , 给出多种基于Storm的设计模式 , 为读者快速掌握Storms分布式实时计算提供系统实践指南 。
《Storm分布式实时计算模式》分为10章:第l章介绍使用storm建立一个分布式流式计算应用所涉及的核心概念 , 包括storm的数据结构、开发环境的搭建 , 以及Storm程序的开发和调试技术等;第2章详细讲解storm集群环境的安装和搭建 , 以及如何将topology部署到分布式环境中;第3章通过传感器数据实例详细介绍Tridenttopology;第4章讲解如何使用Storm和Tridentj挂行实时趋势分析;第5章介绍如何使用Storm进行图形分析 , 将数据持久化存储在图形数据库中 , 通过查询数据来发现其中潜在的联系;第6章讲解如何在Storm上使用递归实现一个典型的人工智能算法;第7章演示集成Storm和非事务型系统的复杂性 , 通过集成Storm和开源探索性分析架构Druid实现一个可配置的实时系统来分析金融事件 。
第8章探讨Lambda体系结构的实现方法 , 讲解如何将批处理机制和实时处理引擎结合起来构建一个可纠错的分析系统;第9章讲解如何将Pig脚本转化为topology , 并且使用Storm-YARN部署topology , 从而将批处理系统转化为实时系统;第10章介绍如何在云服务提供商提供的主机环境下部署和运行Storm 。
产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单
文章图片
Spark海量数据处理技术详解与平台实战
本书基于Spark发行版2.4.4写作而成 , 包含大量的实例与一个完整项目 , 层次分明 , 循序渐进 。 全书分为3部分 , 涵盖了技术理论与实战 , 读者可以从实战中巩固学习到的知识 。 第一部分主要围绕BDAS(伯克利数据分析栈) , 不仅介绍了如何开发Spark应用的基础内容 , 还介绍了StructuredStreaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题 , 此外还介绍了Alluxio系统 。
第二部分实现了一个企业背景调查系统 , 比较新颖的是 , 该系统借鉴了数据湖与Lambda架构的思想 , 涵盖了批处理、流处理应用开发 , 并加入了一些开源组件来满足需求 , 既是对本书第一部分很好的巩固 , 又完整呈现了一个实时大数据应用的开发过程 。 第三部分是对全书的总结和展望 。


推荐阅读