规范化处理带有符号前缀的DataFrame列

7次阅读

规范化处理带有符号前缀的 DataFrame 列

本文详细介绍了如何在 python pandas 中规范化处理带有 ’+’ 或 ’-‘ 前缀的 dataframe 列。通过识别并反转负号列的值，然后利用正则表达式统一列名，最后通过 `groupby` 和 `sum` 操作，将正负列合并为单一的、无前缀的列，实现数据归一化，并生成清晰的最终结果 dataframe。

在 数据分析 和处理中，我们经常会遇到需要对 DataFrame 中的特定列进行组合或归一化的情况。本教程将指导您如何高效地处理一类特殊的数据集：其中某些列名带有 + 或 - 前缀，表示其值的性质或应进行的运算。我们的目标是将这些带有符号前缀的列合并，例如将 -ColXX 的值从 +ColXX 中减去，最终得到一个不带任何前缀的归一化列。

假设我们有一个 Pandas DataFrame，其列名可能包含 + 或 - 前缀。例如，+Col01 和 -Col01 可能代表某个指标的正向贡献和负向贡献。我们希望将它们合并为 Col01，其中 Col01 的值是 +Col01 的值减去 -Col01 的值。如果只有 +ColXX 或 -ColXX，则直接保留其值（对于 -ColXX，需要取其负值）。

首先，我们创建一个示例 DataFrame 来模拟这种 数据结构：

import pandas as pd  # 示例数据 data = {'RepID': [1, 2, 3, 4, 5],     '+Col01': [5, 1, 9, 3, 0],     '+Col02': [7, 3, 8, 1, 7],     '+Col03': [9, 3, 0, 0, 1],     '-Col01': [8, 3, 9, 5, 2],     '+Col04': [3, 1, 4, 8, 0],     '+Col05': [8, 2, 9, 7, 0],     '-Col03': [1, 2, 5, 1, 2],     '-Col04': [9, 3, 1, 0, 9],     '+Col06': [4, 6, 2, 9, 2],     '-Col07': [6, 0, 0, 2, 1] } df = pd.DataFrame(data)  print(" 原始 DataFrame:") print(df)

原始 DataFrame 示例输出：

RepID  +Col01  +Col02  +Col03  -Col01  +Col04  +Col05  -Col03  -Col04  +Col06  -Col07 0      1       5       7       9       8       3       8       1       9       4       6 1      2       1       3       3       3       1       2       2       3       6       0 2      3       9       8       0       9       4       9       5       1       2       0 3      4       3       1       0       5       8       7       1       0       9       2 4      5       0       7       1       2       0       0       2       9       2       1

为了实现列的归一化，我们将采取以下三个主要步骤：

首先，我们需要识别所有以 - 开头的列。对于这些列，我们将它们的值乘以 -1。这样做的目的是将“减去”操作转换为“加上一个负数”的操作，为后续的聚合做准备。

# 识别所有以 '-' 开头的列 negative_cols = df.columns[df.columns.str.startswith('-')]  # 将这些列的值乘以 -1 df[negative_cols] = df[negative_cols].mul(-1)  print("n 调整负号列后的 DataFrame:") print(df)

调整负号列后的 DataFrame 输出：

RepID  +Col01  +Col02  +Col03  -Col01  +Col04  +Col05  -Col03  -Col04  +Col06  -Col07 0      1       5       7       9      -8       3       8      -1      -9       4      -6 1      2       1       3       3      -3       1       2      -2      -3       6       0 2      3       9       8       0      -9       4       9      -5      -1       2       0 3      4       3       1       0      -5       8       7      -1       0       9      -2 4      5       0       7       1      -2       0       0      -2      -9       2      -1

接下来，我们需要为所有相关列创建一个统一的“基础”列名，即去除 + 或 - 前缀。这可以通过 字符串 替换和 正则表达式 来实现。

# 使用正则表达式去除列名中的 '+' 或 '-' 前缀 # '[+-]' 匹配 '+' 或 '-' # Regex=True 表示使用正则表达式 standardized_col_names = df.columns.str.replace('[+-]', '', regex=True)  print("n 标准化列名（用于分组）：") print(standardized_col_names)

标准化列名输出示例：

Index(['RepID', 'Col01', 'Col02', 'Col03', 'Col01', 'Col04', 'Col05', 'Col03',        'Col04', 'Col06', 'Col07'],       dtype='object')

可以看到，+Col01 和 -Col01 都变成了 Col01，+Col03 和 -Col03 都变成了 Col03，以此类推。

有了标准化后的列名作为分组依据，我们就可以使用 Pandas 的 groupby 功能，并指定 axis=1（按列分组），然后对每个组内的值进行求和。由于我们在上一步已经将负号列的值调整为负数，这里的求和操作实际上就完成了我们所需的减法。

# 按标准化后的列名进行分组，并对每个组求和 # axis=1 表示按列进行分组操作 # sort=False 保持原始列的相对顺序 final_df = df.groupby(standardized_col_names, axis=1, sort=False).sum()  print("n 最终归一化后的 DataFrame:") print(final_df)

最终归一化后的 DataFrame 输出：

RepID  Col01  Col02  Col03  Col04  Col05  Col06  Col07 0      1     -3      7      8     -6      8      4     -6 1      2     -2      3      1     -2      2      6      0 2      3      0      8     -5      3      9      2      0 3      4     -2      1     -1      8      7      9     -2 4      5     -2      7     -1     -9      0      2     -1

将上述步骤整合到一起，形成一个完整的解决方案：

import pandas as pd  # 1. 示例数据 data = {'RepID': [1, 2, 3, 4, 5],     '+Col01': [5, 1, 9, 3, 0],     '+Col02': [7, 3, 8, 1, 7],     '+Col03': [9, 3, 0, 0, 1],     '-Col01': [8, 3, 9, 5, 2],     '+Col04': [3, 1, 4, 8, 0],     '+Col05': [8, 2, 9, 7, 0],     '-Col03': [1, 2, 5, 1, 2],     '-Col04': [9, 3, 1, 0, 9],     '+Col06': [4, 6, 2, 9, 2],     '-Col07': [6, 0, 0, 2, 1] } df = pd.DataFrame(data)  print(" 原始 DataFrame:") print(df)  # 2. 调整负号列的值 negative_cols = df.columns[df.columns.str.startswith('-')] df[negative_cols] = df[negative_cols].mul(-1)  # 3. 标准化列名并进行分组求和 standardized_col_names = df.columns.str.replace('[+-]', '', regex=True) final_df = df.groupby(standardized_col_names, axis=1, sort=False).sum()  print("n 最终归一化后的 DataFrame:") print(final_df)

处理逻辑的巧妙性： 关键在于将减法操作转化为加法。通过将负号列的值取反，随后的 sum()操作就能正确地实现正值 – 负值的效果。
正则表达式的运用： df.columns.str.replace(‘[+-]’, ”, regex=True)是处理列名中多个不同前缀的有效方法。[+-]表示匹配字符 + 或 -。
groupby(axis=1): 这是按列进行分组的关键。它允许我们根据新的列名分组，并将属于同一组的原始列（经过值调整后）进行聚合。
sort=False: 在 groupby 操作中，sort=False 可以保留原始列的相对顺序，这对于保持结果的可读性有时很重要。如果省略，groupby 可能会对列名进行排序。
处理仅有 ’+’ 或 ’-‘ 的列： 这种方法能够自然地处理只有 +ColXX 或只有 -ColXX 的情况。如果只有 +Col06，它会直接保留 +Col06 的值，并将其列名改为 Col06。如果只有 -Col07，它会将其值乘以 -1，然后保留这个负值，并将其列名改为 Col07。

通过上述步骤，我们可以灵活且高效地对带有符号前缀的 DataFrame 列进行归一化处理，生成一个结构清晰、易于分析的新 DataFrame。

发表于：后端开发

六天前

复制链接

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

php使用什么方法记录日志信息_php使用Monolog进行日志管理的实践

WooCommerce产品标签筛选器开发：获取、展示与排除特定标签

c++中deque容器的使用方法_C++双端队列的常用操作与特性

Laravel中处理JSON字段并计算每行总和的教程

LinuxSSH安全怎么提升_关键技巧整理帮助提高效率【指导】

规范化处理带有符号前缀的DataFrame列

python Pandas 中带有符号前缀的 DataFrame 列归一化处理教程

1. 问题场景与数据准备

2. 核心处理步骤

2.1 调整负号列的值

2.2 标准化列名

2.3 分组与求和

3. 完整代码示例

4. 注意事项与总结

Java DOM Level 3 Core是什么新增了哪些功能

2024年你必须知道的20个VSCode神级插件

TAGGER（TAG）币是什么？如何运作？2025年-2030年价格预测

PHP 表单提交：确保 $_POST 接收数据的关键——name 属性

sublime如何显示漂亮的文件图标_AFileIcon插件让sublime界面更美观

规范化处理带有符号前缀的DataFrame列

python Pandas 中带有符号前缀的 DataFrame 列归一化处理教程

1. 问题场景与数据准备

2. 核心处理步骤

2.1 调整负号列的值

2.2 标准化列名

2.3 分组与求和

3. 完整代码示例

4. 注意事项与总结

Java DOM Level 3 Core是什么 新增了哪些功能

2024年你必须知道的20个VSCode神级插件

TAGGER（TAG）币是什么？如何运作？2025年-2030年价格预测

PHP 表单提交：确保 $_POST 接收数据的关键——name 属性

sublime如何显示漂亮的文件图标_AFileIcon插件让sublime界面更美观

Java DOM Level 3 Core是什么新增了哪些功能