MongoDB百万级数据去重

程序员文章站 2022-04-15 14:42:06

...

打开navicate，新建查询，先看一下集合中是否有重复的数据

db.集合名.aggregate([
{$group:{_id:'$字段',count:{$sum:1}}},
{$match:{count:{$gt:1}}}
],{allowDiskUse:true})

下面是一个小测试：

MongoDB百万级数据去重原始集合中的数据

MongoDB百万级数据去重

存在重复，使用以下代码去重：

 db.getCollection('集合名').aggregate([
    {
        $group: { _id:'$字段名',count: {$sum: 1},dups: {$addToSet: '$_id'}}
    },
    {
        $match: {count: {$gt: 1}}
    }
	],{allowDiskUse: true}).forEach( //（使用forEach循环根据_id删除数据）
    function(doc){ 
        doc.dups.shift(); 
        db.getCollection('集合名').remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)

其中，对于大批量数据处理，一定要有{allowDiskUse:true}，表示的是允许利用磁盘空间，否则会出现内存不足的情况。

1、对使用aggregate聚合查询重复数据的解释

$group中是查询条件；

$count用来统计重复出现的次数， $match来过滤没有重复的数据；

$addToSet将聚合的数据id放入到dups数组中方便后面使用；

2、查询结果使用forEach进行迭代id来删除数据

shift()作用是剔除队列中第一条id，避免删掉所有的数据；

注意函数的大小写，mongoDB是严格区分大小写的

对上述例子的处理结果为：

MongoDB百万级数据去重

上一篇： leetcode287：Find the Duplicate Number

下一篇： json对象去重,根据指定字段

MongoDB百万级数据去重

2020.7.24 一个130行代码的清洗数据的小工具，多种表分类聚合去重补全-zkjs_wang

MySQL数据表合并去重的简单实现方法

js 对只包含简单类型数据的对象为元素组成的数组进行去重

大数据List去重

pandas dataframe重复数据查看.判断.去重

数据库表数据如何去重

MySQL对数据去重的方法

Oracle 分页查询与数据去重

AI大数据公司“高重科技”完成亿元级A轮融资

mongodb中使用distinct去重的简单方法

MongoDB百万级数据去重

2020.7.24 一个130行代码的清洗数据的小工具，多种表分类聚合去重补全-zkjs_wang

MySQL数据表合并去重的简单实现方法

js 对 只包含简单类型数据的对象 为元素 组成的数组 进行去重

大数据List去重

pandas dataframe重复数据查看.判断.去重

数据库表数据如何去重

MySQL对数据去重的方法

Oracle 分页查询与数据去重

AI大数据公司“高重科技”完成亿元级A轮融资

mongodb中使用distinct去重的简单方法

js 对只包含简单类型数据的对象为元素组成的数组进行去重