七叶笔记 » 数据库 » postgresql 删除重复数据的几种方法小结

postgresql 删除重复数据的几种方法小结

常规删除方法

最容易想到的方法就是判断数据是否重复,对于重复的数据只保留ctid最小(或最大)的那条数据,删除其他的数据。

可以看到,id相同的数据,保留ctid最小的那条,其他的删除。相当于把deltest表中的数据删掉一半,耗时达到67s多。相当慢。

group by删除方法

第二种方法为group by方法,通过分组找到ctid最小的数据,然后删除其他数据。

可以看到同样是删除一半的数据,使用group by的方式,时间节省了一半。但仍含需要30s,下面试一下第三种删除操作。

新的删除方法

在postgres修炼之道这本书中,作者提到一种效率较高的删除方法, 在这里验证一下,具体如下:

看到上述结果,真让我吃惊了一把,这么快的删除方法还是首次看到,自己真实孤陋寡闻,在这里要膜拜一下修炼之道这本书的大神作者了。

补充:pgsql 删除表中重复数据保留其中的一条

1.在表中(表名:table 主键:id)增加一个字段rownum,类型为serial

2.执行语句:

3.最后删除rownum

以上为个人经验,希望能给大家一个参考,也希望大家多多支持七叶笔记。如有错误或未考虑完全的地方,望不吝赐教。

相关文章