数智萤火虫|大数据运营技术与工具:大规模数据分析的微积分( 二 )


数智萤火虫|大数据运营技术与工具:大规模数据分析的微积分
文章图片
以上就是MapReduce的输出结果 , 可以描述为:
2013年12月23日的总流量为92,583,701Bytes(约合92.58MB) , 2013年12月24日的总流量为79,233,468Bytes(约合79.23MB) 。
以上就是MapReduce从多个文件中通过Map、Sort和Reduce操作进行统计分析的大致过程 。
上面仅仅是一个剖析原理的简单示例 , 在MapReduce的实际运行环境中 , 会有大量的输入文件 , 由于大量的输入文件分布式地存储在不同的主机设备中 , 并且被分割的大文件无需去主机外部的磁盘阵列上存取 , 从而解决了因大文件传输引起的大量网络带宽占用问题 。
大规模分布式计算环境中 , Map、Sort、Reduce操作通常在不同的主机上完成 , 通过多个任务并行执行 , 彼此之间并不存在关联依赖 , 从而大大提高了大规模数据分析的整体效率 。
MapReduce是一种典型的大数据分析技术 , 总体实现思路并不复杂 , 但是Hadoop开源框架中的MapReduce还是存在很多问题 , 为了克服不足之处 , 许多软件在此基础上进行了改进和完善 , 比如:
#Facebook开发并开源的分布式NoSQL数据库软件Cassandra;
#开源分布式文件系统Ceph(支持对象存储);
#Cleversafe公司的分散存储网络 , 将元数据分散到集群中;
#IBM公司的GPFS(通用并行文件系统 , GeneralParallelFileSystem);
#EMC公司的Isilon , MapR文件系统 , NetApp公司的Hadoop开放方案等 。
相关文章
大数据运营技术与工具:他山之石 , 可以攻玉
大数据运营技术与工具:Hadoop生态系统
大数据运营技术与工具:大规模分布式存储系统
大数据运营技术与工具:善于多维分析的关系型数据库
数智萤火虫
愿景目标:致力于为学员提供以大数据、人工智能、数字化转型为核心 , 从技术到产品 , 从战略到运营的系统化、高品质知识服务 , 培养专家型、应用型、实战型人才 。
服务内容:会按需延伸至企业架构、产品经理、区块链、5G、AR、VR等领域 , 帮助您掌握最新的理念、思维、方法、技术与工具 , 与时俱进 , 创新发展 。
【数智萤火虫|大数据运营技术与工具:大规模数据分析的微积分】交付理念:起步于技术、聚焦于产品、深耕于运营、决胜于战略 , 帮助学员实现从点到线 , 再从面到体的蜕变式修炼与进阶 。
交付形式:文章、PPT、音频、视频、微信群、直播、沙龙、答疑、考评等多种形式 , 多媒体、多触点、线上线下相融合 , 切实解决工作与学习中遇到困难和问题 , 提升实战能力 。
加入知识星球 , 您将至少获得:
1、高薪职位推荐 。 星球帮助学员存放简历 , 免费对接优选岗位 。
2、职业规划指导 。 帮助学员少走弯路 , 快速平滑晋级、晋升 。
3、精品内容尝鲜 。 每周至少分享1篇原创精编长文 。
4、PPT干货下载 。 定期推送最新培训、项目、公开课资料 。
5、精美礼物赠送 。 小礼品、红包、作者签名书等 。
6、在线问题答疑 。 72小时内答复个性化问题 。
本星球属于你我共同成长的家园 , 希望我们有缘相聚 , 共同拥抱数字化时代的新浪潮、新机遇 , 不负韶华、共创共赢!


推荐阅读