七叶笔记 » 数据库 » PostgreSQL的中文拼音排序案例

PostgreSQL的中文拼音排序案例

分类: 数据库 | 浏览: 918

--使用排序后的结果，不是很理想

说明：

postgresql的排序除了受到数据库的编码影响外，还有一个初始化参数是locale也会影响(initdb)，,通常我的选择是C，这可以让postgres数据库通过strcmp()这个函数来比较字符串，而不是strcoll()函数。

这个参数可以在数据库里查看，如

--简体中文在系统表里的支持

因为初始化时选择的locale是C，所以数据库的默认排序也是C，要想字段内容按照中文拼音排序，需要将UTF8格式存储的内容转换为GBK方式。

解决办法：

1.转换字段的方式,加个convert_to前缀函数

--convert_to函数输入参数是text形式,输出编码是bytea形式，是将字符转换为目标编码的函数，如

2.列指定zh_cn的方式存储

3.查询时指定collate

其他问题：

1.在用了方法一的convert_to函数转换一段时间后，开发告诉我说有异常,报错 character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

排查了一下，发现数据库里存了一些比较奇怪的字符导致的，比如Mircle® city,niwhite®town。后对该表重建了一下，用方法二解决,所以convert_to函数使用对一些奇怪的字符转换时需要注意。

2.对于多音字，仍然会产生一定的歧义，比如重庆，会按Z去排序

上述办法能满足大部分汉字的拼音排序，但仍有一些不足。比较理想的解决办法是对这类基础数据录入时就指定拼音规则，或者数据库里存一份数据的拼音字典来关联使用。

其他：

使用zh_cn存储时测试字段大小，未测试取值速度

存储差异并不大

补充

以上为个人经验，希望能给大家一个参考，也希望大家多多支持七叶笔记。如有错误或未考虑完全的地方，望不吝赐教。

PostgreSQL 拼音排序

七叶笔记