假期Hadoop项目完毕 博客分类: Hadoop HadoopHBase
临近放假之前,本来打算把一个软件著作权完成的,然后再利用假期准备一下找工作的东西,可是突然冒出一个Hadoop项目来,只能顺着导师的意思,完成这个项目了,一眨眼功夫,一个多月过去了,项目马马虎虎算是凑合着过去了。
现在想想,其实也是挺闹眼子的,Hadoop项目看起来挺牛挺神奇的东西,被我们这么一用也不见得有啥的,搞几台电脑主机,而且还不是服务器,通过hadoop环境部署连接起来,分布式的处理任务,总体用起来不见得有多快,甚至有些地方还没有之前的好~
整个工作就是将之前的一个网站功能重新部署到Hadoop平台上去,网站信息的下载处理还是按老方法,用java实现,后面的统计词频和聚类分类换 成了hadoop的mapreduce来实现了,不过实现起来效果不是很理想,聚类和分类都是用了Mahout里面已有的方法来做的,最后的页面展示部 分,主要从HBase里面读取数据显示到页面上,读取效率太低了,主要是源于Hbase没有自己的索引功能,还要自己根据需要建立模拟索引表来提高效率。 整个项目在真正去做的时候才发现也不见得有多么的神奇,不见的有多么的了不起。
大致了解了Hadoop的单机环境配置,运行原理,知道了MapReduce的一个执行方式,了解了HBase的存储方法,优缺点,真正用的最多的 是HBase的过滤机制,通过过滤对信息进行筛选,通过Get方法对信息进行提取。还有HDFS的一些远程命令,文件操作命令等的使用,实战经验还是掌握 的不多,只能说是一个大致的了解而已,使得这个东西对我来说不再是那么神秘了。
整个项目由于项目管理者没能很好的发挥作用,使得各个小组在进行功能组合的时候发生了很多的不一致,在调节不一致这个点上又浪费了好多时间,同时也 由于需求是不明确,不精确,整个项目是想改就改,实在是很纠结人,这时想想,一个项目的需求分析实在是太重要了,文档的细致更是重要至极啊!
不管怎么样,算是跟各位同学一同经历了一段共同努力的日子,一起进步,一起学习,每天都有收获的感觉还是非常好的!