如何正确的使用一条SQL删除重复数据 _SQL

数据库中表存在重复数据，需要清理重复数据，清理后保留其中一条的情况是比较常见的需求，如何通过1条SQL准确的删除数据呢？
1. 创建表及测试数据1.1 数据库中创建一张测试表【如何正确的使用一条SQL删除重复数据】CREATE TABLE `test` (`id` INTNOT NULL AUTO_INCREMENT,`c1` VARCHAR(20) DEFAULT NULL,`c2` VARCHAR(20) DEFAULT NULL,`c3` INTDEFAULT NULL,`c4` DATETIME DEFAULT NULL,PRIMARY KEY (`id`)) ENGINE=INNODBDEFAULT CHARSET=utf8;1.2 插入测试数据INSERT INTO test(c1,c2,c3,c4) VALUES( 'a','b',10, '2022-05-24 18:00:46'),('a','c',20, '2022-05-24 18:00:46');INSERT INTO test(c1,c2,c3,c4) VALUES( 'a','c',10, '2022-05-24 18:00:46'),('a','b',20, '2022-05-24 18:00:46');INSERT INTO test(c1,c2,c3,c4) VALUES( 'b','c',10, '2022-05-24 18:00:46'),('d','b',20, '2022-05-24 18:00:46');INSERT INTO test(c1,c2,c3,c4) VALUES( 'b','c',20, '2022-05-24 18:00:46'),('d','b',30, '2022-05-24 18:00:46');INSERT INTO test(c1,c2,c3,c4) VALUES( 'b','c',20, '2022-05-24 18:00:46'),('a','b',40, '2022-05-24 18:00:46');INSERT INTO test(c1,c2,c3,c4) VALUES( 'd','b',40, '2022-05-24 18:00:46'),('r','f',40, '2022-05-24 18:00:46');1.3 查看重复数据例如c1,c2 这2个字段组合作为唯一条件，则查询重复数据的SQL如下
SELECTc1,c2,COUNT(*)FROMtestGROUP BY c1,c2HAVING COUNT(*) > 1;可见，结果如下：

文章插图
2. 如何删除重复数据2.1 方案一很多研发同学习惯的思路如下：

先查出重复的记录（使用in）
再查出在重复记录但id不在每组id最大值的记录
直接将select 改为delete进行删除

查询SQL如下

SELECT *FROMtestWHERE (c1,c2) IN (SELECT c1,c2FROM test GROUP BY c1,c2 HAVING COUNT(*)>1 )ANDid NOTIN (SELECT MAX(id) FROMtest GROUP BY c1,c2 HAVING COUNT(*)>1) ORDER BY c1,c2;

文章插图
看上去比较符合结果了，但是改为delete执行的时候结果如下：

--delete SQLDELETE FROMtestWHERE (c1,c2) IN (SELECT c1,c2FROM test GROUP BY c1,c2 HAVING COUNT(*)>1 )ANDid NOTIN (SELECT MAX(id) FROMtest GROUP BY c1,c2 HAVING COUNT(*)>1)

出现报错信息：
错误代码：1093You can't specify target table 'test' for update in FROM clause也就是说MySQL里需删除的目标表在in子查询中时，不能直接执行删除操作。
3. 推荐写法基于以上情况，使用单条SQL删除的方式如下：
查询SQL：

SELECTa.*FROMtesta ,(SELECTc1,c2,MAX(id)id FROM testGROUP BY c1,c2 HAVING COUNT(*)>1)bWHEREa.c1=b.c1 AND a.c2=b.c2AND a.id <>b.id

文章插图
删除SQL

DELETEa FROMtesta ,(SELECTc1,c2,MAX(id)id FROM testGROUP BY c1,c2 HAVING COUNT(*)>1)bWHEREa.c1=b.c1 AND a.c2=b.c2AND a.id <>b.id

结果：

<n>查询：delete a FROM test a , (select c1,c2,max(id)id from test group by c1,c2 having count(*)>1)b where a.c1=b.c1 and a.c2=b.c2 and a....共 7 行受到影响

删除后数据如下：

文章插图
无重复数据了。

如何正确的使用一条SQL删除重复数据

推荐阅读

浅浅说科技|这次或要霸占市场！，差强人意还是搅局市场？红米K30再跌新低价

被告|冒充医生向老年人推销降糖假药四人被控诈骗210万元

「天蝎座」6月下旬，横财入宅，3大属相吉运相随，贵人驾临，财富延绵

孙权杀关羽嫁祸曹操?孙权为什么对关羽赶尽杀绝

驱动之家魅族旗舰机史上最大电池！魅族17半个小时能充入56%电量

结婚五年后，我重新思考了一下婚姻的意义

如何学习集合与函数的概念

『东方财富网』报54.4元，创科(00669)跌4.73%

2023两个立春时间 2023立春时间几点几分

电竞|LOL不是战士但出肉最恶心的4个英雄，选出来就是磨人心态的

冬天吃水果清热解毒去火注意事项冬天吃什么水果降火效果最好

中国游泳功勋教练徐国义病逝|中国游泳功勋教练徐国义病逝享年50岁

GPLP|蓝思科技回应投资人：前员工贪腐不会对生产经营造成重大不利影响

趣读文化|盗墓贼几乎洗劫一空，专家：只留下一个文物，千年古墓被发现

手机中国续航大提升，苹果明年新iPhone将使用增强版5nm芯片

高个子穿高跟鞋是啥感觉

周朝灭亡！周朝怎么灭亡的周朝是怎么灭的

安妮的大射手|但为了爱情，最疯狂的三个星座，义无反顾，不计后果，头脑理智

大盘|大盘反弹，不可忽视风险

集团|葵花药业：控股股东葵花集团解除质押3700万股