MySQL去除重复数据

realcp1018 2021-12-28 原文

今天遇到一个需要对表进行去重的问题，数据量大概千万左右，第一选择就是按Oracle的思路上：

delete from table t1 where id < (select max(id) from table t2 where t1.c1=t2.c1);  --将c1值相同的记录进行去重，只留下id最大的，写成id>min(id)效果相同。

以上相关子查询的SQL在c1上存在索引时效率不算低，但是很遗憾MySQL没有这种写法，类似的替代写法在MySQL中效率也低的令人发指，如中间表等手段。

正好在前些时间整理一些shell脚本时处理过mysql导入时出错继续执行的问题，因此测试后采用了如下办法：

1.将表数据导出：

mysqldump -uroot -p --skip-extended-insert -t DBNAME TABLE>TABLE.sql

然后记一下去重后的记录数：
select count(*) from (select 1 from TABLE group by c1) a;

2.truncate表，然后创建唯一索引

truncate table TABLE;
create unique index IX_c1 on TABLE(c1);

3.最后导入数据，需要添加-f选项。

mysql -uroot -p -f DBNAME<TABLE.sql

-f的作用是：Continue even if an SQL error occurs.

这样导入时会报很多的错误，就是因为唯一约束的存在，你只需要最后检查下表的记录数时候与第一步中查到的数目一致就可以了。

这种去重方式效率比较高，缺陷可能是出错时屏幕上一堆的‘Duplicate entry’报错会淹没其他的报错。

此外还可以写存储过程来删除重复数据，这种方式对数据库的影响较小，无需导出导入数据，存储过程写法详见:https://www.cnblogs.com/leohahah/p/9401343.html

mysql去除重复数据

今天一个同学问我mysql去除重复数据，自己做了个测试顺便记录下: 查看表结构: mysql> desc […]...

今天一个同学问我mysql去除重复数据，自己做了个测试顺便记录下: 查看表结构: mysql> desc […]...

随机推荐

HTTP协议介绍

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网 […]...

20165226 2017-2018-4 《Java程序设计》第6周学习总结 20165226 2017-20 […]...

C++实现2048小游戏

代码如下： 1 #define _CRT_SECURE_NO_WARNINGS//去掉编译器内部扩增问题 2 […]...

语法分析的那些算法

前言在编译原理中，语法分析可以说是编译器前端的核心。语法分析的输出，抽象语法树，更是一座建立在编译器前端和后 […]...

python作为一门高级编程语言，它的定位是优雅、明确和简单。我学用python差不多一年时间了，用得最多 […]...

当我们把Akka-http作为数据库数据交换工具时，数据是以Source[ROW,_]形式存放在Enti […]...

利用Tess4J实现图片识别

利用Tess4J实现图片识别一、下载 1.进入官网下载页面 https://sourceforge.ne […]...

2017做的某某测试答案，仅供参考 2018-04-26 22:07 by @疯狂的迈步, … 阅 […]...

MySQL去除重复数据的更多相关文章