窗口函数是在一组数据行上执行计算并为每一行返回一个值的函数。它与普通聚合函数不同,保留原始数据行并进行行级计算。常见函数包括row_number()、rank()、dense_rank()以及结合over()使用的sum()、avg()等。例如,在计算销售排名时,使用rank() over(order by amount desc)可对销售人员按销售额排名;在分析用户访问增长率时,lag()函数可用于获取前一天数据以计算变化率;在分组取最新记录时,row_number()配合partition by和order by可高效实现。窗口函数广泛应用于绩效评估、趋势分析、报表生成等场景,掌握其使用能显著提升sql数据分析效率。
在mysql中使用窗口函数进行数据分析,已经成为处理复杂查询、生成统计结果的重要手段。相比传统的聚合函数和子查询方式,窗口函数可以更灵活地实现分组计算、排名分析等操作。
什么是窗口函数?
窗口函数(Window function)是在一组数据行上执行计算,并为每一行返回一个值的函数。它不同于普通的聚合函数(如SUM()或count()),后者通常会把多行合并成一行输出,而窗口函数则保留原始数据行,并在每行的基础上进行计算。
常见的窗口函数包括:
- ROW_NUMBER(): 按指定顺序给每行分配唯一编号
- RANK() 和 DENSE_RANK(): 对数据进行排名
- SUM(), AVG(), MIN(), MAX() 等聚合函数结合 OVER() 使用
例如:
SELECT order_id, customer_id, amount, SUM(amount) OVER(PARTITION BY customer_id ORDER BY order_date) AS running_total FROM orders;
这段SQL的意思是:按客户分组,按订单日期排序,然后计算每个客户的累计消费金额。
实际案例一:计算每个销售人员的销售排名
假设你有一张销售记录表 sales_records,包含字段 salesperson_name 和 amount。你想知道每位销售人员在当月的销售排名。
SELECT salesperson_name, amount, RANK() OVER(ORDER BY amount DESC) AS sales_rank FROM monthly_sales;
这个查询会给销售额最高的销售人员排第1名,如果有多人并列第一,则后面的排名会跳过。如果你希望不跳过排名数字,可以用 DENSE_RANK() 替代。
常见用途:
- 绩效评估
- 销售排行榜
- 数据趋势分析
实际案例二:计算用户每日访问量的增长率
假如你有一个用户访问日志表 user_visits,包含字段 visit_date 和 visits_count,你想看每天访问量的变化情况。
SELECT visit_date, visits_count, LAG(visits_count, 1, 0) OVER(ORDER BY visit_date) AS prev_day_visits, (visits_count - LAG(visits_count, 1, 0) OVER(ORDER BY visit_date)) / LAG(visits_count, 1, 0) OVER(ORDER BY visit_date) * 100 AS growth_rate FROM daily_visits;
这里用到了 LAG() 函数来获取前一天的数据,进而计算增长率。这种方式在监控业务指标变化时非常实用。
实际案例三:分组后取最新一条记录
有时候你需要从每组数据中取出最新的那条记录,比如查看每个用户的最近一次登录时间。
假设有表 user_logins,包含 user_id 和 login_time,你可以这样写:
SELECT * FROM ( SELECT *, ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY login_time DESC) AS rn FROM user_logins ) t WHERE rn = 1;
这里的思路是先对每个用户按登录时间倒序排列,再选出排名第一的记录。这种方法比使用 GROUP BY 更直观,也更容易扩展。
窗口函数的使用场景远不止这些,尤其是在做报表、数据透视、趋势分析时特别有用。掌握几个常用函数,配合 PARTITION BY 和 ORDER BY,就能写出高效又清晰的sql语句。
基本上就这些了,关键是要理解“窗口”的概念——也就是你要在哪些数据范围内做计算。