学习hadoop,理论知识看了遍,但是实战咋去做有没有比较好的书籍或网站另外实习或者工作的要求

先写wordcount terasort写完能跑就行然后找到运行log 系统log看看怎么调试hadoop程序
■网友
关于实践方面:1 平台方面的熟悉,可以使用自己的电脑或者实验室的环境部署一些少量节点的集群玩玩;2 关于数据应用挖掘方面,可以找一些网上的实例,跑跑,改改;3 可以尝试自己爬取一些实际的互联网数据,尝试去挖掘或者提取有用的数据;关于知识的扩展的话,大数据领域对于知识的扩展以及学习能力是要求很高的,因为这个领域的变化太快,所以需要快速的进行新技术的响应,以及解决问题的能力锻炼等。如果你是在校学生,建议参加一些有实际项目的实验室,但更建议是找机会出来实习,在真实的环境中才能真正接触到数据,接触到实际的生产架构。此外,就是多关注一些社区,关注一些大数据方面的公众号,多参与一些在线上线下的技术交流,有帮助的。
■网友
我记得在学校时上了云计算的课程,老师让搭建一个文献管理系统,除了搭建网站的部分有些坑爹,学习如何用hadoop MR处理数据还是学到了不少。基础的部分看了Hadoop_The_Definitive_Guide_ThirdEdition, 然后有另外一门课程要求写一个分布式系统的review,当时就写了hadoop,Hadoop Overview。实践上,学校里学习了基本的word count,写MR处理数据,比如自己实现partitioner,实现secondary sort等等,这是课程项目https://github.com/lgrcyanny/PaperBook-MapReduce在这个项目中有一个把数据搬迁到HBase的实践,然后就看了HBase,并写了些架构分析HBase Architecture Analysis Part1(Logical Architecture)基本上是对大数据感兴趣,然后选择这方面的课程,选一到两个开源项目多看看。后来,就来到百度了,然后觉得自己在学校学的只能算是基础,这边的基础大数据平台实力很强。跟着几位大牛开始写一个分布式QueryEngine System, 大数据自己学习准备基础的就行,企业里的环境是自己的mac和虚拟机器上难以模拟的。对于找工作还是基本的算法,编程能力和熟悉一到两个开源大数据系统。比如Spark现在很火,可以多研究些streaming,和machine learning方面的。学习材料1. 官方文档就很不错,比如spark的http://spark.apache.org/docs/latest/2. paper, 看hadoop和spark的paper,比如http://dl.acm.org/citation.cfm?id=22283013. 业界动态: http://www.infoworld.com/category/big-data/4. 编程学习:Coursera | Online Courses From Top Universities. Join for Free(Functional Programming Principles in Scala)


    推荐阅读