CSDN|42 张图带你揭秘后端技术都要学啥?( 九 )
本文插图
map/reduce启动过程上图比较清晰地阐述的整个过程 , 再描述一波 。 MR中主要是两种进程角色 , 分别为 JobTracke r和 TaskTracker 两种 。 JobTracker在集群中只有一个 , 而 TaskTracker 存在多个 , 当 JobClient 启动后 , 往 JobTracker 提交作业 , JobTracker查看文件路径决定在哪些服务器启动 Map 进程 。 然后发送命令给 TaskTracker , 告诉它要准备执行任务了 , TaskTracker收到任务后就会启动 TaskRunner 下载任务对应的程序 。 map计算完成 , TaskTracker对map输出结果 shuffer 操作然后加载 reduce 函数进行后续计算 , 这就是各个模块协同工作的简单过程 。 Hive上述过程还是比较麻烦 , 我们能不能直接写SQL , 然后引擎帮助我们生成mapreduce代码 , 就反复我们在web开发的时候 , 不直接写SQL语句 , 直接交给引擎那么方便 , 有的 , 它就是HIVE 。 举个例子:那么使用MR的计算过程完成这条SQL的处理:
本文插图
MR TO SQLSparkSpark是基于内存计算的大数据并行计算框架 。 基于此说说上面hadoop中组件的缺点:
- 磁盘IO开销大 。 每次执行都需要从磁盘读取并且计算完成后还需要将将中间结果存放于磁盘
- 表达能力有限 。 大多数计算都需要转换为Map和Reduce两个操作 , 难以描述复杂的数据处理
- 编程模型不限于map和reduce , 具有更加灵活的编程模型
- spark提供内存计算 , 带来更高的迭代运算效率且封装了良好的机器学习算法
- 采用了基于图DAG的任务调度机制
本文插图
去年参会关于大数据相关知识点可作为扩充点 , 在面试的过程中经常会有大数问题 , 除了从算法的角度来阐述 , 也可以从这些框架中吸取一些经验 。 唠嗑对于之前从事c/c++开发的我 , 很多时候是Linux的开发 。 在学校又没怎么接触系统性的项目 , 更不知道后端技术的博大进深 , 可能文中涉及的也就一部分 , 不过希望还在学校的小伙伴可以知道有这些东西 , 然后通过强大的搜索引擎 , 给自己个比较明确的方向 , 也许会少走点弯路 , 这周的文章就到这了 , goodbye!
【CSDN|42 张图带你揭秘后端技术都要学啥?】
本文插图
点点赞点在看
推荐阅读
- |22页PPT:京东物流揭秘直播电商变局背后,供应链打响新战争
- |vivoX50Pro拆解:揭秘微云台结构是如何放进手机的?
- 黑洞|诺贝尔奖得主彭罗斯,跨学科探究的黑洞揭秘者
- CSDN|CSDN”好师父“培养高素质技术人才
- |揭秘:NASA如何为美国经济做出重要贡献
- 苹果手机|独家揭秘苹果新iPhone 12的价格,全部搭载5G
- 数据中心|取代Intel!NVIDIA数据中心专用处理器揭秘:一颗DPU顶替125颗x86 CPU
- 苹果|苹果正式宣布10月13日举行iPhone 12揭秘活动
- 英特尔|取代Intel!NVIDIA数据中心专用处理器揭秘:一颗DPU顶替125颗x86 CPU
- |10月14日发布!iPhone12上市时间及售价独家揭秘