Baidu/Taobao Hadoop 博客分类: Hadoop Hadoop
百度和淘宝是目前国内Hadoop的最大使用者,在NoSQL fan上看了百度和淘宝Hadoop集群的揭秘,总结一下。链接分别如下:
百度Hadoop分布式系统揭秘:4000节点集群: http://blog.nosqlfan.com/html/983.html
淘宝Hadoop数据分析实践:http://www.slideshare.net/coderplay/hadoop-9256433
百度:
百度一向是走C++系的,其Hadoop平台也是采用的C++版的HCE,而且值得注意的是百度是HyperTable的主要赞助者,HyperTable是C++版的HBase。可见百度对于Java的性能还是有些不放心吧,呵呵。
百度的Hadoop集群主要用于后端数据训练和计算,目前规模如下:
4000节点,10+个集群,最大集群1000+节点;
单节点配置:8 core CPU,16G 内存,12T硬盘
数据生成量:3PB/天
百度对HCE也进行了一些优化,例如:调度器是在capacity-scheduler的基础上根据自身业务改进的,对shuffle流程也进行了大幅改造。
淘宝:
一直比较崇拜淘宝,想当当年找工作真正见识到了淘宝面试官的技术实力,那叫一个牛啊,面完之后,自信心严重受挫......希望有朝一日也能进淘宝吧。言归正传,淘宝极具分享精神,在很多会议上和论坛上都发布了其Hadoop实践经验。
淘宝的Hadoop集群成为“云梯”,主要也是用于数据的分析。目前配置:
1600+节点,总容量27.79PB,6.6千万个file,每台机器12T/24T。
40000job/天,扫描数据1.7PB/天,产生数据255TB/天
用户数820个,用户组67个
淘宝也根据其*业务对Hadoop进行了很多优化,具体细节见slideshare的ppt。
推荐阅读
-
Baidu/Taobao Hadoop 博客分类: Hadoop Hadoop
-
hadoop和hostname 博客分类: 大数据hadoop
-
Mongodb相对于关系型数据库的优缺点 博客分类: mongodb & hadoop
-
MapReduce二次排序实现 博客分类: hadoop hadoop排序
-
学习Hadoop权威指南之Hadoop运行MapReduce日志查看 博客分类: hadoop hadoop大数据
-
为Hadoop集群增加新节点 博客分类: hadoop
-
为Hadoop集群撤销节点 博客分类: hadoop
-
Hadoop维护心得 博客分类: hadoop
-
Hadoop名词个人理解 博客分类: hadoop
-
Hive 3.x 支持 ACID 增删改查 博客分类: 大数据 hive hadoop 大数据