MySQL去除重复数据

程序员文章站 2022-06-20 13:26:50

今天遇到一个需要对表进行去重的问题，数据量大概千万左右，第一选择就是按Oracle的思路上：以上相关子查询的SQL在c1上存在索引时效率不算低，但是很遗憾MySQL没有这种写法，类似的替代写法在MySQL中效率也低的令人发指，如中间表等手段。正好在前些时间整理一些shell脚本时处理过mysql ......

今天遇到一个需要对表进行去重的问题，数据量大概千万左右，第一选择就是按Oracle的思路上：

delete from table t1 where id < (select max(id) from table t2 where t1.c1=t2.c1);  --将c1值相同的记录进行去重，只留下id最大的，写成id>min(id)效果相同。

以上相关子查询的SQL在c1上存在索引时效率不算低，但是很遗憾MySQL没有这种写法，类似的替代写法在MySQL中效率也低的令人发指，如中间表等手段。

正好在前些时间整理一些shell脚本时处理过mysql导入时出错继续执行的问题，因此测试后采用了如下办法：

1.将表数据导出：

mysqldump -uroot -p --skip-extended-insert -t DBNAME TABLE>TABLE.sql

然后记一下去重后的记录数：
select count(*) from (select 1 from TABLE group by c1) a;

2.truncate表，然后创建唯一索引

truncate table TABLE;
create unique index IX_c1 on TABLE(c1);

3.最后导入数据，需要添加-f选项。

mysql -uroot -p -f DBNAME<TABLE.sql

-f的作用是：Continue even if an SQL error occurs.

这样导入时会报很多的错误，就是因为唯一约束的存在，你只需要最后检查下表的记录数时候与第一步中查到的数目一致就可以了。

这种去重方式效率比较高，缺陷可能是出错时屏幕上一堆的‘Duplicate entry’报错会淹没其他的报错。

上一篇：史上做微商最全的教程（附无限加微信好友方法和软件）

下一篇：下一个十年，OA要往这几个方向进化才够强！

MySQL去除重复数据

js读取本地json文件数据（php和mysql网站模板）

python使用MySQLdb访问mysql数据库的方法

sqlserver合并DataTable并排除重复数据的通用方法分享

MSSQL MySQL 数据库分页(存储过程)

教你几种在SQLServer中删除重复数据方法

mysql 数据库备份和还原方法集锦推荐

mysql 数据库中索引原理分析说明

教你为MySQL数据库换挡加速

Java实现批量向mysql写入数据的方法

Spring MVC实现mysql数据库增删改查完整实例

MySQL去除重复数据

js读取本地json文件数据（php和mysql网站模板）

python使用MySQLdb访问mysql数据库的方法

sqlserver合并DataTable并排除重复数据的通用方法分享

MSSQL MySQL 数据库分页(存储过程)

教你几种在SQLServer中删除重复数据方法

mysql 数据库备份和还原方法集锦 推荐

mysql 数据库中索引原理分析说明

教你为MySQL数据库换挡加速

Java实现批量向mysql写入数据的方法

Spring MVC实现mysql数据库增删改查完整实例

mysql 数据库备份和还原方法集锦推荐