使用 Pandas 动态分割 DataFrame 中的多列-小浪学习网

使用 Pandas 动态分割 DataFrame 中的多列

本文介绍如何使用 pandas 动态地将 DataFrame 中的多个列按照相同分隔符进行分割。通过循环遍历需要分割的列，并结合 str.split() 和 pd.concat() 函数，可以高效地完成列分割任务，避免手动指定每一列的分割操作，适用于处理含有不定数量分隔符的列。

在数据处理过程中，经常会遇到需要按照特定分隔符分割 DataFrame 中多个列的情况。手动为每一列编写分割代码不仅繁琐，而且当需要分割的列数较多时，代码的可维护性也会大大降低。本文将介绍一种动态分割 DataFrame 列的方法，通过循环遍历需要分割的列，并结合 Pandas 提供的字符串分割函数，可以高效地完成任务。

实现方法

确定需要分割的列：首先，需要明确 DataFrame 中哪些列需要进行分割。将这些列名存储在一个列表中。
循环遍历列名列表：使用 for 循环遍历列名列表，对每一列执行分割操作。
使用 str.split() 分割列：在循环中，使用 Pandas 的 str.split() 函数按照指定分隔符分割当前列。设置 expand=True 将分割后的结果展开为新的列。
重命名分割后的列：为了区分分割后的列，可以使用 rename() 函数为它们添加后缀。例如，可以将原始列名作为前缀，加上分割后的列的索引。
使用 pd.concat() 合并结果：将分割后的 DataFrame 与原始 DataFrame 中不需要分割的列合并。使用 pd.concat() 函数，并设置 axis=1，表示按列合并。

代码示例

import pandas as pd  # 示例数据 data = {'DATE': ['2023-11-21', '2023-11-21', '2023-11-21', '2023-11-21', '2023-11-21'],         'talk_TIME': [None, '00:04:16', None, '00:24:30', '00:04:08'],         'CONSULT_TIME': ['05:10', None, None, None, None]} df = pd.DataFrame(data)  # 需要分割的列名列表 cols = ['TALK_TIME', 'CONSULT_TIME']  # 分割并重命名列 lst = [df[col].str.split(':', expand=True)        .rename(columns=Lambda x: f'{col}_{x+1}')        for col in cols       ]  # 合并结果 out = pd.concat([df.drop(columns=cols)]+lst, axis=1)  # 输出结果 print(out)

代码解释

cols = [‘TALK_TIME’, ‘CONSULT_TIME’]: 定义需要分割的列的列表。
lst = […]: 使用列表推导式，循环遍历 cols 中的每一列。
- df[col].str.split(‘:’, expand=True): 使用 str.split() 函数按照冒号 : 分割当前列，expand=True 将分割后的结果展开为新的列。
- .rename(columns=lambda x: f'{col}_{x+1}’): 使用 rename() 函数重命名分割后的列，将原始列名作为前缀，加上分割后的列的索引。
out = pd.concat([df.drop(columns=cols)]+lst, axis=1): 使用 pd.concat() 函数将分割后的 DataFrame 与原始 DataFrame 中不需要分割的列合并。df.drop(columns=cols) 删除原始的需要分割的列，axis=1 表示按列合并。

注意事项