sql字符串 处理重在理解 数据结构 与业务逻辑:先清洗(如去空格)、再识别分隔符规律、最后安全截取或聚合,关键在预判异常、统一格式、分步验证。

SQL 字符串处理不是背函数,而是理解数据怎么“长”、查询怎么“切”、结果怎么“拼”。真正卡住人的,往往不是 CONCAT 或SUBSTRING不会写,而是没想清楚:原始字段里藏着什么结构?空格 / 分隔符是规律的还是混乱的?要不要先清洗再拆?下面用三个真实业务场景,带你看清逻辑链,不 堆语法,只练思维。
从“张三 - 北京 -2023”反向还原用户归属地
某 CRM 系统把姓名、城市、年份硬 编码 在一个字段里,用短横线连接,但部分数据有空格(如“李四 – 上海 – 2024”),还有极个别缺城市(“王五 -2022”)。直接SUBSTRING_INDEX 会出错。
关键思路:先统一格式,再安全截取。
- 用
REPLACE(col, '','')干掉所有空格,让分隔符位置稳定 - 用
Length和REPLACE算短横线个数:LENGTH(col) - LENGTH(REPLACE(col, '-', '')),判断是否三段 - 对两段数据(缺城市),用
CASE WHEN兜底返回 ’ 未知 ’,避免SUBSTRING_INDEX(col, '-', 2)取到年份
提取 邮箱 域名并统计活跃度分布
用户表有个 email 字段,要快速看出 腾讯 系(@qq.com/@foxmail.com)、阿里系(@163.com/@aliyun.com)占比。但有人填了user@subdomain.163.com,也有人漏了 @符号(如“user163.com”)。
关键思路:别硬匹配后缀,先定位 @,再抓“@之后、第一个点之前”的主域名。
- 用
LOCATE('@', email)找 @位置;为防无 @数据,加WHERE email LIKE '%@%'预过滤 - 用
SUBSTRING(email, LOCATE('@', email) + 1)拿到 @后全部内容 - 再用
SUBSTRING_INDEX(……, '.', 1)取第一个点前的部分——这样subdomain.163.com也能正确归为163 - 最后
CASE WHEN domain IN ('qq','foxmail') THEN ' 腾讯 系'……分组统计
合并多行标签为单字段,去重且按频次排序
订单表关联标签表,一个订单可能有多个标签(如订单 1001 → [‘ 物流慢 ’,’ 客服差 ’,’退款 慢 ’]),现在要查 TOP10 高频组合,格式为“物流慢 | 客服差 |退款 慢”,且同一订单内重复标签要去掉。
关键思路:聚合前先去重,排序逻辑必须在聚合内完成,不能靠外层 ORDER BY。
- 用
GROUP_CONCAT(DISTINCT tag ORDER BY tag SEPARATOR '|')——DISTINCT去同订单内重,ORDER BY tag保证每次生成相同字符串(方便后续计数) - 外层再
GROUP BY这个合并字段,count(*)统计出现次数 - 注意:mysql默认
GROUP_CONCAT长度限制 1024,超长会截断,需临时设SET session group_concat_max_len = 10000
字符串处理的本质,是把非结构化信息变成可分组、可比较、可索引的结构。写 SQL 时多问一句:“这个字段,人眼是怎么读的?机器该怎么信?”——答案就藏在空格、分隔符、异常值和业务规则里。基本上就这些。