如何将 MongoDB MapReduce 速度提升 20 倍

程序员文章站 2022-04-12 13:41:07

...

分析在MongoDB中正成为越来越重要的话题，因为它在越来越多的大型项目中使用。人们厌倦了使用不同的软件来做分析（包括Hadoop），

分析在MongoDB中正成为越来越重要的话题，因为它在越来越多的大型项目中使用。人们厌倦了使用不同的软件来做分析（包括Hadoop），它们显然需要传输大量开销的数据。

MongoDB提供了两种内置分析数据的方法：Map Reduce和Aggregation框架。MR非常灵活，很容易部署。它通过分区工作良好，，并允许大量输出。MR在MongoDB v2.4中，通过使用JavaScript引擎把Spider Monkey替换成V8,性能提升很多。老板抱怨它太慢了，尤其是和Agg框架（使用C++）相比。让我们看看能否从中榨出点果汁。

练习

让我们插入1千万条文档，每个文档包含一个从0到1000000的整数。这意味着平均有10个文档会具有相同的值。

> for (var i = 0; i > db.uniques.findOne()
{ "_id" : ObjectId("51d3c386acd412e22c188dec"), "dim0" : 570859 }
> db.uniques.ensureIndex({dim0: 1})
> db.uniques.stats()
{
"ns" : "test.uniques",
"count" : 10000000,
"size" : 360000052,
"avgObjSize" : 36.0000052,
"storageSize" : 582864896,
"numExtents" : 18,
"nindexes" : 2,
"lastExtentSize" : 153874432,
"paddingFactor" : 1,
"systemFlags" : 1,
"userFlags" : 0,
"totalIndexSize" : 576040080,
"indexSizes" : {
"_id_" : 324456384,
"dim0_1" : 251583696
},
"ok" : 1
}

从这其中，我们想要计算出现的不同值的个数。可以用下列MR任务轻松完成这个工作:

> db.runCommand(
{ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: "mrout" })
{
"result" : "mrout",
"timeMillis" : 1161960,
"counts" : {
"input" : 10000000,
"emit" : 10000000,
"reduce" : 1059138,
"output" : 999961
},
"ok" : 1
}

正如你在输出内容中看到的，这耗费了大概1200秒(在EC2 M3实例上进行的测试)。有1千万个map，1百万个reduce，输出了999961个文档。结果就像下面这样:

> db.mrout.find()
{ "_id" : 1, "value" : 10 }
{ "_id" : 2, "value" : 5 }
{ "_id" : 3, "value" : 6 }
{ "_id" : 4, "value" : 10 }
{ "_id" : 5, "value" : 9 }
{ "_id" : 6, "value" : 12 }
{ "_id" : 7, "value" : 5 }
{ "_id" : 8, "value" : 16 }
{ "_id" : 9, "value" : 10 }
{ "_id" : 10, "value" : 13 }
...

更多详情见请继续阅读下一页的精彩内容：

MongoDB 的详细介绍：请点这里
MongoDB 的下载地址：请点这里

如何将 MongoDB MapReduce 速度提升 20 倍

如何将 MongoDB MapReduce 速度提升 20 倍

如何将 MongoDB MapReduce 速度提升 20 倍

MongoDB MapReduce 性能提升20倍的优化宝典