使用 Pandas 和 NumPy 在 Group 内添加数据-小浪学习网

使用 Pandas 和 NumPy 在 Group 内添加数据

本文档旨在提供一种高效的方法，利用 pandas 和 numpy，在 Pandas DataFrame 的 Group 内，将每一行的数据添加到 Group 内的每一行。这种操作在数据分析中经常遇到，例如在赛马数据中，需要将每匹马的信息添加到同一场比赛的其他马匹的信息中。本文将提供详细的代码示例和解释，帮助读者理解和应用该方法。

问题描述

假设我们有一个包含赛马数据的 DataFrame，其中数据按 raceId 分组。我们希望将同一场比赛中每匹马的特定数据（例如 horseId、position、weight）添加到该场比赛的其他所有马匹的数据中。最终，DataFrame 的每一行都包含该场比赛中所有马匹的相关信息。

解决方案

以下是如何使用 Pandas 和 NumPy 实现此目标的步骤：

1. 导入必要的库

首先，导入 Pandas 和 NumPy 库：

import pandas as pd import numpy as np

2. 定义 roll 函数

定义一个名为 roll 的函数，该函数接受一个 DataFrame Group 作为输入，并使用 NumPy 滚动和索引值。此函数将 DataFrame 转换为 NumPy 数组，然后使用 NumPy 的高级索引功能来创建所有可能的行组合。最后，将结果转换回 DataFrame，并添加适当的列名。

def roll(g):     a = g.to_numpy()     x = np.arange(len(a))     return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),                         index=g.index,                         columns=[f'{c}_{i+1}' for i in x for c in g.columns])

代码解释:

g.to_numpy(): 将 DataFrame Group 转换为 NumPy 数组，以便使用 NumPy 的高效操作。
np.arange(len(a)): 创建一个从 0 到 Group 长度的数组，用于后续的索引操作。
((x[:,None] + x)%len(a)).ravel(): 这是核心部分，它使用 NumPy 的广播和取模操作来生成所有可能的行索引组合。
- x[:,None]：将 x 转换为列向量。
- x[:,None] + x：将列向量 x 与行向量 x 相加，得到一个二维数组，其中每个元素 (i, j) 的值为 i + j。
- %len(a)：对每个元素进行取模操作，确保索引值在 Group 长度范围内。
- .ravel()：将二维数组展平为一维数组，包含所有滚动后的索引。
a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1): 使用生成的索引从原始 NumPy 数组 a 中选择相应的行，并将其重塑为 DataFrame 的形状。
pd.DataFrame(…): 将结果转换为 Pandas DataFrame。
columns=[f'{c}_{i+1}’ for i in x for c in g.columns]: 为新的 DataFrame 列添加后缀，以便区分不同的马匹数据。

3. 分组和应用 roll 函数

使用 Pandas 的 groupby 方法按 meetingId 和 raceId 列对 DataFrame 进行分组。然后，使用 apply 方法将 roll 函数应用于每个 Group。

cols = ['meetingId', 'raceId']  out = (data_orig_df.groupby(cols)        .apply(Lambda g: roll(g.drop(columns=cols)))        .reset_index(cols)        )

代码解释:

data_orig_df.groupby(cols): 按 meetingId 和 raceId 列对 DataFrame 进行分组。
.apply(lambda g: roll(g.drop(columns=cols))): 将 roll 函数应用于每个 Group。在应用之前，我们使用 g.drop(columns=cols) 移除分组列，因为这些列不需要滚动。
.reset_index(cols): 将分组列恢复为 DataFrame 的普通列。

4. 完整代码示例

import pandas as pd import numpy as np  data_orig = {     'meetingId': [178515] * 6,     'raceId': [879507] * 6,     'horseId': [90001, 90002, 90003, 90004, 90005, 90006],     'position': [1, 2, 3, 4, 5, 6],     'weight': [51, 52, 53, 54, 55, 56], }  data_orig_df = pd.DataFrame(data_orig)  def roll(g):     a = g.to_numpy()     x = np.arange(len(a))     return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),                         index=g.index,                         columns=[f'{c}_{i+1}' for i in x for c in g.columns])  cols = ['meetingId', 'raceId']  out = (data_orig_df.groupby(cols)        .apply(lambda g: roll(g.drop(columns=cols)))        .reset_index(cols)        )  print(out)

5. 结果

out DataFrame 将包含所需的结果，其中每一行都包含该场比赛中所有马匹的相关信息。

注意事项

此方法假设每个 Group 中的行数是固定的。如果 Group 中的行数不同，则需要调整 roll 函数中的索引逻辑。
此方法在处理大型数据集时可能会占用大量内存。在这种情况下，可以考虑使用其他方法，例如循环遍历 Group 并手动添加数据。

总结

本文介绍了一种使用 Pandas 和 NumPy 在 DataFrame Group 内添加数据的高效方法。通过使用 NumPy 的高级索引功能，我们可以避免使用循环，从而提高代码的性能。这种技术在数据分析中非常有用，特别是在需要将同一组中的数据组合在一起时。记住，在处理大型数据集时，要考虑内存使用情况，并根据需要调整代码。

文章版权归作者所有，未经允许请勿转载。

THE END

后端开发
# 循环 # for # 数据分析 # position # pandas # numpy # Lambda # len