Google能够在6个小时排序1 PB数据
程序员文章站
2022-03-26 13:31:22
...
google日前宣布,他们能够在6小时2分钟操作4000台电脑排序1 PB的数据,1 PB = 1,024 TB ! 根据google的博客,从这个数据量的角度来看,1 PB相当于2008年5月份美国国会图书馆存档web数据的12倍,都是通过google MapReduce实例来处理巨大的数据,数据额在2008年一月差不多是每天 20 PB。强大的MapReduc 技术可能成为一个编程模型 和 一个处理/生成巨大数据的联合实现方式。
MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。
对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频。
MapReduce 是google数据处理的核心技术,是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算, 同时Yahoo,Facebook和LinkedIn也采用此项技术。但是这是一项有争议的技术,主要是和标准的数据仓储data warehousing的通用方式有明显冲突。目前两个data warehouse DBMS 厂商Greenplum 和 Aster Data,发布了集成MapReduce进入SQL数据库管理工具,MapReduce将极大促进高端数据分析技术的发展,尤其在三个方面的应用:1)文本字符解析,索引和搜索;2)创建其他类型的数据结构(比如graphs图);3)数据挖掘和机器学习(数据转换也在这个列表中)。所有这些领域要获得更好的结果取决于性能,MapReduce提供了让主要数据处理速度大幅提高的可能性。
对MapReduce有兴趣,还可以查看:google发布的一个来自google技术圆桌会议讨论MapReduce的视频。
上一篇: Vue样式绑定和事件绑定
下一篇: 设计模式之建造者模式