零基础学习大数据的学习路线是啥( 七 )


项目背景介绍数据规模介绍业务关键指标介绍使用flume把日志数据导入到hdfs中编写MapReduce代码进行数据清洗使用hbase存储明细日志,实现基于ip查询使用hive对数据进行多维分析使用sqoop把hive分析结果导出到MySQL中互联网电商爬虫项目: 该项目使用分布式爬虫爬取互联网各大电商网站商品数据,前台实现对数据的快速精准查询和商品对比。互联网电商爬虫
商品页面抓取和解析分布式爬虫设计细节分析url链接和页面内容如何存储分布式爬虫监控功能爬虫频繁爬取数据ip被封问题解决方案分析爬取失败url如何处理抓取需要登录的网站数据使用solr实现海量数据精准查询使用hbase实现海量数据快速查询高频数据实时流处理项目: 该项目实现对业务数据系统的高频日志数据进行实时收集和业务处理。高频数据实时流处理
使用avro方式实现高频日志数据实时采集flume sink源码分析自定义kafkasink实现对收集的高频日志数据进行缓冲使用kafkaspout实现对kafka中的数据进行实时读取使用storm实时计算框架对日志数据进行分析处理flume和kafka的整合Kafka和storm的整合国内排名前50名的某网站互联网日志分析项目: 通过大数据工具将互联网中的日志的采集、清洗、分析统计出常见的互联网指标;开发各种维度UV的分布报表、各个指标每日、月指标报表,用于对产品做出正确的决策,数据的正确性校对问题,临时性的图表的开发。某网站互联网日志分析
使用hadoop、mapreduce、hive清理和分析UV、PV、登录、留存等常见指标使用storm实时分析充值、消费等的趋势各种维度的趋势对比、各个指标每日、月指标报表生成使用kettle数据的正确性校对问题和邮件报警移动业务感知项目: 移动业务感知系统主要是利用hadoop集群强大的计算能力对移动的大批量离线话单数据进行分析,统计移动用户使用移动业务(流量套餐、话费套餐、铃声套餐等)情况,达到感知用户行为和使用习惯,确定移动业务推广走向的一套系统

■网友
你先学java吧
■网友
先学java,之后学Linux,hadoop,hive,spark之类的


推荐阅读