本文介绍如何使用 pandas 动态地将 DataFrame 中的多个列按照相同分隔符进行分割。通过循环遍历需要分割的列,并结合 str.split() 和 pd.concat() 函数,可以高效地完成列分割任务,避免手动指定每一列的分割操作,适用于处理含有不定数量分隔符的列。
在数据处理过程中,经常会遇到需要按照特定分隔符分割 DataFrame 中多个列的情况。手动为每一列编写分割代码不仅繁琐,而且当需要分割的列数较多时,代码的可维护性也会大大降低。本文将介绍一种动态分割 DataFrame 列的方法,通过循环遍历需要分割的列,并结合 Pandas 提供的字符串分割函数,可以高效地完成任务。
实现方法
- 确定需要分割的列:首先,需要明确 DataFrame 中哪些列需要进行分割。将这些列名存储在一个列表中。
- 循环遍历列名列表:使用 for 循环遍历列名列表,对每一列执行分割操作。
- 使用 str.split() 分割列:在循环中,使用 Pandas 的 str.split() 函数按照指定分隔符分割当前列。设置 expand=True 将分割后的结果展开为新的列。
- 重命名分割后的列:为了区分分割后的列,可以使用 rename() 函数为它们添加后缀。例如,可以将原始列名作为前缀,加上分割后的列的索引。
- 使用 pd.concat() 合并结果:将分割后的 DataFrame 与原始 DataFrame 中不需要分割的列合并。使用 pd.concat() 函数,并设置 axis=1,表示按列合并。
代码示例
import pandas as pd # 示例数据 data = {'DATE': ['2023-11-21', '2023-11-21', '2023-11-21', '2023-11-21', '2023-11-21'], 'talk_TIME': [None, '00:04:16', None, '00:24:30', '00:04:08'], 'CONSULT_TIME': ['05:10', None, None, None, None]} df = pd.DataFrame(data) # 需要分割的列名列表 cols = ['TALK_TIME', 'CONSULT_TIME'] # 分割并重命名列 lst = [df[col].str.split(':', expand=True) .rename(columns=Lambda x: f'{col}_{x+1}') for col in cols ] # 合并结果 out = pd.concat([df.drop(columns=cols)]+lst, axis=1) # 输出结果 print(out)
代码解释
- cols = [‘TALK_TIME’, ‘CONSULT_TIME’]: 定义需要分割的列的列表。
- lst = […]: 使用列表推导式,循环遍历 cols 中的每一列。
- df[col].str.split(‘:’, expand=True): 使用 str.split() 函数按照冒号 : 分割当前列,expand=True 将分割后的结果展开为新的列。
- .rename(columns=lambda x: f'{col}_{x+1}’): 使用 rename() 函数重命名分割后的列,将原始列名作为前缀,加上分割后的列的索引。
- out = pd.concat([df.drop(columns=cols)]+lst, axis=1): 使用 pd.concat() 函数将分割后的 DataFrame 与原始 DataFrame 中不需要分割的列合并。df.drop(columns=cols) 删除原始的需要分割的列,axis=1 表示按列合并。
注意事项
- 确保 DataFrame 中需要分割的列是字符串类型。如果不是,可以使用 astype(str) 将其转换为字符串类型。
- 如果分隔符在某些行中不存在,str.split() 函数会返回 NaN 值。可以使用 fillna() 函数填充这些 NaN 值。
- 根据实际需求调整列名的重命名规则。
总结
本文介绍了一种动态分割 Pandas DataFrame 中多个列的方法。通过循环遍历需要分割的列,并结合 str.split() 和 pd.concat() 函数,可以高效地完成列分割任务。这种方法避免了手动指定每一列的分割操作,提高了代码的可维护性和可重用性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END