sql分组统计核心是正确使用 GROUP BY 与 聚合函数 ,并用 HAVING 过滤分组结果;需确保select 非聚合字段全在 GROUP BY 中,注意 NULL 归组特性,优先采用条件聚合而非多子查询。

SQL 分组统计核心就两点:用好 GROUP BY 搭配 聚合函数,再配合 HAVING 精准过滤分组结果。写错顺序、忽略 NULL 处理或滥用子查询,是效率低和结果出错的主因。
GROUP BY 必须包含所有非聚合字段
SELECT 后出现的非聚合列(比如 name、status),必须全部写进 GROUP BY 子句,否则多数 数据库 会报错(如 postgresql、SQL Server);mysql 5.7+ 严格模式 下同样受限。
- ✅ 正确写法:SELECT dept, count(*) FROM emp GROUP BY dept;
- ❌ 错误写法:SELECT dept, name, COUNT(*) FROM emp GROUP BY dept;(name 未参与分组,语义模糊)
- ? 如果真要查每个部门的某个人名,需明确逻辑:用 MAX(name)、MIN(name),或结合窗口函数取首行。
用 HAVING 替代 WHERE 过滤分组结果
WHERE 在分组前筛选原始行,HAVING 在分组后筛选“组”——这是关键 区别。想查“员工数超 5 人的部门”,必须用 HAVING。
- ✅ 正确:SELECT dept, COUNT(*) c FROM emp GROUP BY dept HAVING c > 5;
- ❌ 错误:SELECT dept, COUNT(*) c FROM emp WHERE c > 5 GROUP BY dept;(WHERE 不认识别名 c,也不作用于聚合结果)
- ? HAVING 支持聚合函数和列别名,WHERE 不支持。
NULL 值会被自动归为一组,但容易被忽略
GROUP BY 字段含 NULL 时,所有 NULL 值会聚成单独一组。如果你没意识到,可能误以为“数据丢了”或漏统计。
- ✅ 查看 NULL 分组:SELECT region, COUNT(*) FROM sales GROUP BY region;(region 为 NULL 的记录会单独一行)
- ? 需要排除 NULL?加条件:WHERE region IS NOT NULL 放在 GROUP BY 前。
- ? 想把 NULL 当作“未知”统一命名?用 COALESCE(region, ‘Unknown’) 再分组。
复杂统计优先考虑条件聚合,少用多表关联子查询
统计“各部门男女人数、平均薪资”时,用 CASE + 聚合比多次 LEFT JOIN 更高效、更清晰。
- ✅ 推荐写法:SELECT dept,
COUNT(CASE WHEN gender=’M’ THEN 1 END) male_cnt,
COUNT(CASE WHEN gender=’F’ THEN 1 END) female_cnt,
AVG(salary) avg_salary
FROM emp GROUP BY dept; - ❌ 低效写法:为男女各写一个子查询再 JOIN,增加执行计划复杂度,还易出笛卡尔积。
- ? 条件聚合一次扫描完成,逻辑集中,数据库优化器也更容易命中索引。
基本上就这些。不复杂,但容易忽略细节。写完分组语句,记得反问自己:每列是否合理归属?NULL 怎么处理?过滤逻辑该放 WHERE 还是 HAVING?