SQL对冗余数据的删除重复记录只保留单条的说明
程序员文章站
2023-12-05 18:53:46
我们先看一下相关数据结构的知识。 在学习线性表的时候,曾有这样一个例题。 已知一个存储整数的顺序表la,试构造顺序表lb,要求顺序表lb中只包含顺序表la中所有值不相同的数...
我们先看一下相关数据结构的知识。
在学习线性表的时候,曾有这样一个例题。
已知一个存储整数的顺序表la,试构造顺序表lb,要求顺序表lb中只包含顺序表la中所有值不相同的数据元素。
算法思路:
先把顺序表la的第一个元素付给顺序表lb,然后从顺序表la的第2个元素起,每一个元素与顺序表lb中的每一个元素进行比较,如果不相同,则把该元素附加到顺序表lb的末尾。
public seqlist<int> purge(seqlist<int> la)
{
seqlist<int> lb = new seqlist<int>(la.maxsize);
//将a表中的第1个数据元素赋给b表
lb.append(la[0]);
//依次处理a表中的数据元素
for (int i = 1; i <= la.getlength() - 1; ++i)
{
int j = 0;
//查看b表中有无与a表中相同的数据元素
for (j = 0; j <= lb.getlength() - 1; ++j)
{
//有相同的数据元素
if (la[i].compareto(lb[j]) == 0)
{
break;
}
}
//没有相同的数据元素,将a表中的数据元素附加到b表的末尾。
if (j > lb.getlength() - 1)
{
lb.append(la[i]);
}
return lb;
}
}
如果理解了这个思路,那么数据库中的处理就好办了。
我们可以做一个临时表来解决问题
select distinct * into #tmp from tablename
drop table tablename
select * into tablename from #tmp
drop table #tmp
发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。
但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,guid,等)
上个问题先不讲,先看看这个问题。
我们分别在三种数据库中看一下处理办法,就是通常我们用的sqlserver2000,sqlserver2005,oracle 10g.
1. sql server 2000 构造序号列
方法一:
select 序号=
(select count(客户编号) from 客户 as a where a.客户编号<= b.客户编号),
客户编号,公司名称 from 客户 as b order by 1;
方法二:
select 序号= count(*),
a.客户编号, a.公司名称from 客户 as a, 客户 as b
where a.客户编号>= b.客户编号 group by a.客户编号, b.公司名称 order by 序号;
2. sql server 2005 构造序号列
方法一:
select rank() over (order by 客户编号 desc) as 序号, 客户编号,公司名称 from 客户;
方法二:
with table as
(select row_number() over (order by 客户编号 desc) as 序号, 客户编号,公司名称 from 客户)
select * from table
where 序号 between 1 and 3;
3. oracle 里 rowid 也可看做默认标识列
在oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在oracle中的哪一个数据文件、块、行上。
在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。
select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所以,我们还可以用游标来解决删除重复记录的问题。
declare @max int,
@id int
declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1
open cur_rows
fetch cur_rows into @id ,@max
while @@fetch_status=0
begin
select @max = @max -1
set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么
delete from test where id = @id
fetch cur_rows into @id ,@max
end
close cur_rows
set rowcount 0 以上是闪电查阅一些资料写出的想法,有考虑不周的地方,欢迎大家指出。
在学习线性表的时候,曾有这样一个例题。
已知一个存储整数的顺序表la,试构造顺序表lb,要求顺序表lb中只包含顺序表la中所有值不相同的数据元素。
算法思路:
先把顺序表la的第一个元素付给顺序表lb,然后从顺序表la的第2个元素起,每一个元素与顺序表lb中的每一个元素进行比较,如果不相同,则把该元素附加到顺序表lb的末尾。
复制代码 代码如下:
public seqlist<int> purge(seqlist<int> la)
{
seqlist<int> lb = new seqlist<int>(la.maxsize);
//将a表中的第1个数据元素赋给b表
lb.append(la[0]);
//依次处理a表中的数据元素
for (int i = 1; i <= la.getlength() - 1; ++i)
{
int j = 0;
//查看b表中有无与a表中相同的数据元素
for (j = 0; j <= lb.getlength() - 1; ++j)
{
//有相同的数据元素
if (la[i].compareto(lb[j]) == 0)
{
break;
}
}
//没有相同的数据元素,将a表中的数据元素附加到b表的末尾。
if (j > lb.getlength() - 1)
{
lb.append(la[i]);
}
return lb;
}
}
如果理解了这个思路,那么数据库中的处理就好办了。
我们可以做一个临时表来解决问题
复制代码 代码如下:
select distinct * into #tmp from tablename
drop table tablename
select * into tablename from #tmp
drop table #tmp
发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。
但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,guid,等)
上个问题先不讲,先看看这个问题。
我们分别在三种数据库中看一下处理办法,就是通常我们用的sqlserver2000,sqlserver2005,oracle 10g.
1. sql server 2000 构造序号列
方法一:
select 序号=
(select count(客户编号) from 客户 as a where a.客户编号<= b.客户编号),
客户编号,公司名称 from 客户 as b order by 1;
方法二:
select 序号= count(*),
a.客户编号, a.公司名称from 客户 as a, 客户 as b
where a.客户编号>= b.客户编号 group by a.客户编号, b.公司名称 order by 序号;
2. sql server 2005 构造序号列
方法一:
select rank() over (order by 客户编号 desc) as 序号, 客户编号,公司名称 from 客户;
方法二:
with table as
(select row_number() over (order by 客户编号 desc) as 序号, 客户编号,公司名称 from 客户)
select * from table
where 序号 between 1 and 3;
3. oracle 里 rowid 也可看做默认标识列
在oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在oracle中的哪一个数据文件、块、行上。
在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。
复制代码 代码如下:
select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所以,我们还可以用游标来解决删除重复记录的问题。
declare @max int,
@id int
declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1
open cur_rows
fetch cur_rows into @id ,@max
while @@fetch_status=0
begin
select @max = @max -1
set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么
delete from test where id = @id
fetch cur_rows into @id ,@max
end
close cur_rows
set rowcount 0 以上是闪电查阅一些资料写出的想法,有考虑不周的地方,欢迎大家指出。
上一篇: 程序员30岁后过上了怎样的生活?