索引选择性越高查询效率越好,应优先在区分度高的列如主键、唯一键上建索引;低选择性字段如性别不宜单独建索引;可通过复合索引提升整体选择性,并将高选择性列置于前列;长字符串可使用前缀索引但需权衡选择性与存储,最终结合EXPLaiN验证索引效果。
索引选择性是指索引列中不同值的数量与总行数的比例,选择性越高,查询效率通常越好。优化索引选择性可以显著提升 MySQL 查询性能。以下是几种实用的优化方法:
理解索引选择性
选择性计算公式为:选择性 = 不重复值数量 / 总记录数。理想情况下,选择性接近 1 表示列中大部分值都是唯一的,比如主键或唯一约束列。如果选择性很低(如性别、状态这类只有几个值的字段),索引效果就差。
例如一张百万用户表,若用“性别”建索引,只有“男”“女”两个值,MySQL 很可能直接全表扫描,因为走索引再回表的成本更高。
优先在高选择性列上创建索引
将索引建立在区分度高的列上,能有效减少扫描行数。
- 优先考虑主键、唯一键、邮箱、手机号等唯一或接近唯一的字段
- 避免对枚举值少的状态字段单独建索引,除非配合其他条件使用
- 可通过 SQL 评估某列的选择性:
SELECT COUNT(DISTINCT column_name) / COUNT(*) FROM table_name;
使用复合索引提升整体选择性
单列选择性不高时,可通过组合多个列构建复合索引,提高整体区分能力。
- 例如 (last_name, first_name) 比单独对 last_name 建立索引更具选择性
- 注意最左前缀原则,确保查询条件能命中索引开头列
- 将选择性更高的列放在复合索引前面,有助于更快过滤数据
前缀索引的合理使用
对于长字符串字段(如 VARCHAR(255)),可只对前 N 个字符建索引,节省空间但需权衡选择性。
- 使用 LEFT(column, N) 分析前 N 字符的选择性
SELECT COUNT(DISTINCT LEFT(email, 8)) / COUNT(*) FROM users; - 逐步增加 N 直到选择性接近完整列
- 注意:前缀索引不支持覆盖索引和 ORDER BY 优化
基本上就这些。关键是根据实际数据分布判断,结合执行计划(EXPLAIN)验证索引是否被有效使用,不断调整才能达到最优效果。