[] 千万级的表如何去重复

程序员文章站 2022-06-11 21:11:40

...

[求助] 千万级的表怎么去重复？
一直都是在折腾万级别的小小数据库，不知道索引、数据类型等的不同会对效率有多大影响。最近不是密码泄露吗？就下了个，导入mysql数据库，共两千多万条记录，只留密码字段，其他字段全部删除，进行select、insert等测试，有了索引select的效率明显不同，但在去重复时遇到难题。

方法一：
CREATE TABLE newtable SELECT DISTINCT pwd FROM oldtable
这种方式看起来效率最高，但运行时直接把机器拖死，内存一会儿就用完了。

方法二：
逐条获取再删除重复（每次提取$num条记录，我的$num=50）
$result = mysql_query("SELECT MIN(id), pwd FROM tablename WHERE id BETWEEN $id AND $num GROUP BY pwd");
while($row = mysql_fetch_row($result)){
mysql_query("DELETE FROM tablename WHERE id>$row[0] AND pwd='$row[1]'");
}
$id += $num;
再通过地址栏或cookie等传递$id，效率太低，处理了100分钟，才删除了30多万条重复

请问我应该怎么做，效率才会更高？谢谢

------解决方案--------------------
创建临时表方法好
之前一般建议别人这样操作，但不一定能听进去，小数据量倒无所谓
http://topic.csdn.net/u/20111225/22/7cabedc3-5e9e-42b3-b05b-153ba5a5a67f.html

操作时候占资源是必须的，，不可避免。。。。。除非你乐意慢慢等待
------解决方案--------------------
2100w，不知道加unique效率如何，你可试下

SQL code

alter ignore table mypwd add unique(pwd);
alter table mypwd drop index pwd;

------解决方案--------------------
用临时表吧。create temporary table ....

------解决方案--------------------
试试：

新建表，设定唯一字段。
导出sql文件。  
重新source导入.

------解决方案--------------------
你可以建唯一键。不要索引。 重复直接报错忽略。

select内存不够进，仍要存盘。 而且有distinct. 还要对比重复。 应没有source快。

------解决方案--------------------

探讨

引用:

你可以建唯一键。不要索引。重复直接报错忽略。

select内存不够进，仍要存盘。而且有distinct. 还要对比重复。应没有source快。

请看我在7楼的回复，如果不给pwd字段建索引，7楼的效率就非常高了，110秒处理完。是在SQLyog中实现的

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

[] 千万级的表如何去重复

MySQL如何快速的创建千万级测试数据

如何确定Oracle数据库表重复的记录

Excel2010如何删除数据表中的重复条目将重复数据批量删除

MySQL如何快速的创建千万级测试数据

如何确定Oracle数据库表重复的记录

如何在一个千万级的数据库查询中提高查询的效率?

P1059 明明的随机数排列好的数组如何去重统计，如何去除数组重复的数字

JS如何去掉一个数组的重复元素 (数组去重)

Oracle表中重复数据去重的方法实例详解

如何做好内容运营展开打造出千万级的产品

[] 千万级的表如何去重复

MySQL如何快速的创建千万级测试数据

如何确定Oracle数据库表重复的记录

Excel2010如何删除数据表中的重复条目将重复数据批量删除

MySQL如何快速的创建千万级测试数据

如何确定Oracle数据库表重复的记录

如何在一个千万级的数据库查询中提高查询的效率?

P1059 明明的随机数 排列好的数组如何去重统计，如何去除数组重复的数字

JS如何去掉一个数组的重复元素 (数组去重)

Oracle表中重复数据去重的方法实例详解

如何做好内容运营展开 打造出千万级的产品

P1059 明明的随机数排列好的数组如何去重统计，如何去除数组重复的数字

如何做好内容运营展开打造出千万级的产品