Pandas技巧:高效处理连续相同值分组并计算聚合统计量

Pandas技巧:高效处理连续相同值分组并计算聚合统计量

本教程详细讲解了如何在pandas中对数据框中连续出现的相同值进行分组,并在此基础上计算指定列的聚合统计量,例如最大值。通过结合使用shift()、ne()和cumsum()函数创建动态分组键,再配合groupby()和transform()方法,实现精确地对连续数据块进行分析,避免了传统分组方式的局限性。

1. 问题背景:传统分组的局限性

数据分析中,我们经常需要对数据进行分组聚合。Pandas的groupby()函数是实现这一目标的核心工具。然而,当需求是针对某一列中“连续出现”的相同值进行分组时,传统的df.groupby(‘column_name’)方法可能无法满足要求。这是因为传统groupby会将所有具有相同值的行聚合在一起,而不管它们在原始数据框中的位置是否连续。

例如,考虑以下数据集:

import pandas as pd  data = {     'Fruits': ['Apple', 'Apple', 'Banana', 'Orange', 'Apple', 'Apple'],     'Price': [20, 30, 50, 170, 55, 90] }  df = pd.DataFrame(data) print(df)

输出:

   Fruits  Price 0   Apple     20 1   Apple     30 2  Banana     50 3  Orange    170 4   Apple     55 5   Apple     90

我们的目标是计算每组连续相同水果的最高价格。具体来说,我们希望第一组连续的“Apple” (索引0, 1) 的最大价格是30,而第二组连续的“Apple” (索引4, 5) 的最大价格是90。如果直接使用 df.groupby(‘Fruits’)[‘Price’].max(),结果会是所有“Apple”中的最大值90,这不符合按连续块分组的要求。

2. 核心解决方案:动态分组键的构建

要解决这个问题,我们需要一个机制来为每一段连续的相同值生成一个唯一的组标识符。Pandas提供了强大的工具组合来实现这一点:shift()、ne()(或!=)和cumsum()。

2.1 步骤一:识别连续块的边界

首先,我们需要识别出连续块开始的位置。这可以通过比较当前行的值与上一行的值来实现。如果它们不相等,则意味着一个新的连续块开始了。

# 比较当前行与上一行'Fruits'列的值是否不相等 # df.Fruits.shift() 会将'Fruits'列向下移动一位,第一位变为NaN # df.Fruits.ne(...) 等同于 df.Fruits != ... new_block_start = df.Fruits.ne(df.Fruits.shift()) print(new_block_start)

输出:

0     True  # 'Apple'与NaN不相等,视为新块开始 1    False  # 'Apple'与'Apple'相等 2     True  # 'Banana'与'Apple'不相等,新块开始 3     True  # 'Orange'与'Banana'不相等,新块开始 4     True  # 'Apple'与'Orange'不相等,新块开始 5    False  # 'Apple'与'Apple'相等 Name: Fruits, dtype: bool

这个布尔序列准确地标记了每个新连续块的起始位置。

2.2 步骤二:生成唯一的分组ID

有了新块的起始标记,我们可以使用 cumsum()(累积求和)来生成唯一的组ID。cumsum()会将 True 视为1,False 视为0,并进行累加。每当遇到一个 True(即新块开始),累加值就会增加1,从而为该连续块分配一个唯一的ID。

grp = df.Fruits.ne(df.Fruits.shift()).cumsum() print(grp)

输出:

0    1 1    1 2    2 3    3 4    4 5    4 Name: Fruits, dtype: int64

现在,我们得到了一个完美的组ID序列:

  • 索引0和1(连续的’Apple’)被分到组1。
  • 索引2(’Banana’)被分到组2。
  • 索引3(’Orange’)被分到组3。
  • 索引4和5(连续的’Apple’)被分到组4。

每个连续的相同水果类型都拥有了一个独特的组ID。

3. 应用聚合操作:groupby()与transform()

有了这个动态生成的分组键 grp,我们就可以使用 groupby() 进行分组聚合了。关键在于使用 transform(‘max’) 而不是 agg(‘max’)。

  • groupby(grp):根据我们刚刚创建的 grp 系列进行分组。
  • [‘Price’]:选择我们要计算最大值的列。
  • transform(‘max’):这是核心。与 agg(‘max’) 不同,transform() 会在每个组内执行指定的操作(这里是求最大值),并将结果“广播”回原始DataFrame的对应行,保持原有的索引和形状。这意味着,如果一个组有N行,transform 就会返回N个相同的最大值,每个对应组内的一行。
# 完整的解决方案代码 grp = df.Fruits.ne(df.Fruits.shift()).cumsum() df['Max'] = df.groupby(grp)['Price'].transform('max') print(df)

最终输出:

   Fruits  Price  Max 0   Apple     20   30 1   Apple     30   30 2  Banana     50   50 3  Orange    170  170 4   Apple     55   90 5   Apple     90   90

结果完全符合我们的预期:第一组连续的“Apple”的最大值是30,第二组连续的“Apple”的最大值是90。其他水果也各自计算了其连续块内的最大值(由于它们是单行块,最大值就是其自身价格)。

4. 拓展与注意事项

  • 通用性: 这种技术不仅限于计算最大值。你可以将 transform(‘max’) 替换为 transform(‘min’)、transform(‘mean’)、transform(‘sum’) 或任何其他聚合函数,以计算连续块内的其他统计量。
  • 应用场景:
    • 时间序列分析: 识别连续几天上涨/下跌的股票价格,并计算其最大涨幅。
    • 数据清洗: 标记或处理连续出现的重复值。
    • 特征工程: 为机器学习模型创建基于连续事件的特征。
  • 性能考量: Pandas的groupby()和transform()是高度优化的C实现,对于大型数据集通常表现出良好的性能。
  • 缺失值处理: shift()操作会在第一行引入 NaN。ne()函数能够正确处理 NaN 与非 NaN 的比较(NaN != value 通常为 True,NaN != NaN 通常为 True,除非使用 pd.isna().ne(pd.isna().shift()) 这种方式)。在实际应用中,如果你的分组列中存在 NaN,可能需要额外考虑如何处理它们(例如,使用 fillna() 预处理,或根据需求调整逻辑)。

总结

通过巧妙地结合使用 shift()、ne() 和 cumsum() 来创建动态分组键,并配合 groupby() 和 transform() 方法,Pandas能够高效且准确地实现对数据框中连续相同值块的聚合操作。这种方法比传统的循环或简单的groupby更具效率和灵活性,是处理复杂分组聚合需求时的强大工具。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享