欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

hadoop学习总结 博客分类: 学习总结 hadoop学习总结 

程序员文章站 2024-02-13 16:36:16
...

 

青涩的大一,以为大学就是早上与伙伴篮球场上挥洒汗水,下午寝室四人开黑,晚上又是三五成群烧烤摊畅饮啤酒。转眼间已经大二下,大学生活已然过半。看身边,陆仁贾在台上演示精致的app小游戏,宋兵乙在分享各种实习趣事,而故事的主角却还在思考如何安全的度过今年期末考试。

冲动,确实是一时冲动,看见豪翔跟家园学长在台上讲打算成立云计算小组的计划后,我第一个举起了手,也是在那时候,遇到了今天的小伙伴们,没有他们,我可能不会坚持到现在

最初的云计算小组,人不多,也没有大神来罩,很难想像连搭建个完全分布式集群都得祈祷网络不出故障的几个年轻人却扬言著书立说,也许多年以后回想起这些年轻时发生的故事才会真正有感觉。开始的时候很艰难,问题一个接一个的出现,有个叫毛书记的不知道如今还在不在安装他的Linux系统(黑一下~),但很欢乐,问题总是会被解决的,每到周六周日,小房间里总是坐满了小伙伴,分享自己这一周来的学习收获,就这样,学习的气氛渐渐浓厚起来。

关于MR

搭建好hadoop平台后,开始各司其职。觉得MR高大上一点,我跟毛书记还有一一就选择这一块儿。虽然群里上传了好多资料,但我还是选择去图书馆(习惯看纸质书,没钱打印),最开始我找了是一本《Ubuntu从入门到精通》,花了将近一周时间把Linux下的命令大概记住了,了解了sed、awk、grep这些文件处理工具,知道了管道的概念,并且加深了对正则表达式的理解,感觉在shell下面操作是没什么问题,然后艰难的做出决定,去网上买了本盗版的《hadoop技术内幕》,并且花重金去打印店把《hadoop实战》3-7章打印出来,只能说收获伴随着喜悦。

随着不断的学习,渐渐对自己的学习能力有了那么点骄傲,觉得分析个MR编程框架不在话下,然后花了半个多月的时间才堪堪搞懂,有点颇受打击。下面是自己对MR输入输出接口的分析,就不再文章中啰嗦了。http://924389979.iteye.com/blog/2059267

http://924389979.iteye.com/blog/2067075

关于分布式

其实分布式一直不太想搞,因为蓝杰这边网络不太稳定,跟小伙伴们一直搭不起来,后来听说金山那边会提供现成的集群,就不了了之了,对于HDFS 的理解只是大致了解了关于读写的流程,主从节点、块等概念,只能说是纸上谈兵吧http://924389979.iteye.com/blog/2070854

关于源码分析

以前胡哥在讲课的过程中经常让我们看Java源码,会看但不经常看,导致在程序细节上总是理解不好。本来hadoop源码是要过一遍的,但老是看不下去,翻来覆去,因为要分析MR框架,才把mapreduce包下的源码看了下,可恨当时只是粗略的过了一遍,没有做好笔记,但对于各种逻辑关系以及实现关系的理解有一定的帮助。

关于Shell与Python

老实说钢总的到来给了我很大的压力,遥记得第一次见钢总时很紧张,都没敢上前握手。这次的交流以及以后的任务部署让我们有了新的方向,本来基于Linux下hadoop需要shell脚本的支持,于是拿着拖欠图书馆一个多月不还的《shell编程指南》翻来覆去,刚摆脱菜鸟级准备走向大师级,新任务下来,要求大家掌握Python,当时感觉脸一黑。不过应该不是问题,这几天查看相关博文和书籍,自己装好GUI并试着敲了几个小程序,发现Python确实很有魅力,并且很*,符合鄙人的口味。

关于参数分析

再来就是胡凯发来的那份数据的分析,本来是一份根本看不懂的东东,发现大家都没兴趣搞,就拿回家把相关参数全部百度了一遍,写了一份自我感觉良好参数分析文档,上传的群里也没有什么反应,好像是不要求搞了什么的吧,好吧,还是看下重播为什么雷霆输球了吧。

 

<!--EndFragment-->
相关标签: hadoop 学习总结