MongoDB百万级数据去重
程序员文章站
2022-04-15 14:42:06
...
打开navicate,新建查询,先看一下集合中是否有重复的数据
db.集合名.aggregate([
{$group:{_id:'$字段',count:{$sum:1}}},
{$match:{count:{$gt:1}}}
],{allowDiskUse:true})
下面是一个小测试:
原始集合中的数据
存在重复,使用以下代码去重:
db.getCollection('集合名').aggregate([
{
$group: { _id:'$字段名',count: {$sum: 1},dups: {$addToSet: '$_id'}}
},
{
$match: {count: {$gt: 1}}
}
],{allowDiskUse: true}).forEach( //(使用forEach循环根据_id删除数据)
function(doc){
doc.dups.shift();
db.getCollection('集合名').remove(
{
_id: {
$in: doc.dups
}
}
);
}
)
其中,对于大批量数据处理,一定要有{allowDiskUse:true},表示的是允许利用磁盘空间,否则会出现内存不足的情况。
1、对使用aggregate聚合查询重复数据的解释
$group中是查询条件;
$count用来统计重复出现的次数, $match来过滤没有重复的数据;
$addToSet将聚合的数据id放入到dups数组中方便后面使用;
2、查询结果使用forEach进行迭代id来删除数据
shift()作用是剔除队列中第一条id,避免删掉所有的数据;
注意函数的大小写,mongoDB是严格区分大小写的
对上述例子的处理结果为: