本教程详细介绍了如何使用 python 的 pandas 库处理多重响应(多选题)数据并生成交叉表。通过结合 `melt` 函数将多列数据重塑为长格式,再利用 `groupby` 和 `pivot_table` 进行聚合与透视,可以有效地分析多重响应变量与另一个分类变量之间的关系。文章还涵盖了百分比计算和构建通用函数的思路。
引言:多重响应数据与交叉表分析
在数据分析,特别是市场调研和问卷分析中,多重响应问题(Multiple Response Questions),即允许受访者选择多个答案的题目,是常见的类型。这类数据通常以“多列”形式存储,例如,一个问题“您购买产品时会考虑哪些因素?”可能对应“Q1_1: 价格”、“Q1_2: 品牌”、“Q1_3: 质量”等多个二元变量(0/1 或有/无)。传统的交叉表分析工具在处理这种多列分散的数据时会遇到挑战,因为它无法直接将这些分散的响应视为一个整体进行计数和交叉分析。
本教程旨在提供一个使用 Pandas 库处理这类数据的有效方法,通过数据重塑(data reshaping)技术,将多重响应数据转换为适合交叉表分析的格式,并最终生成清晰、易读的交叉表。
数据准备与问题示例
为了演示这一过程,我们首先构建一个示例数据集。假设我们有一个关于产品购买决策的问卷数据,其中“Q2”是一个多重响应问题(例如,受访者在哪里听到产品信息),其选项分布在 Q2_1、Q2_2、Q2_3 三列中。同时,我们有一个单选问题“Q3”,表示受访者是否购买了产品。
示例数据集:
Q2_1 | Q2_2 | Q2_3 | Q3 |
---|---|---|---|
Na loja | Folheto | Sim | |
Na loja | Não | ||
Na loja | Sim | ||
Folheto | Sim |
我们的目标是生成一个交叉表,显示 Q2 的各个响应选项(例如,“Na loja”、“Email”、“Folheto”)与 Q3(“Sim”、“Não”)之间的计数关系,例如:
Sim | Não | |
---|---|---|
Na loja | 2 | 1 |
2 | 0 | |
Folheto | 2 | 0 |
首先,我们使用 Pandas 创建这个示例 DataFrame:
import io import pandas as pd data = '''Q2_1,Q2_2,Q2_3,Q3 Na loja,Email,Folheto,Sim Na loja,,,Não Na loja,Email,,Sim ,,Folheto,Sim''' df = pd.read_csv(io.StringIO(data), sep=',', engine='python') print("原始数据:") print(df)
输出:
原始数据: Q2_1 Q2_2 Q2_3 Q3 0 Na loja Email Folheto Sim 1 Na loja NaN NaN Não 2 Na loja Email NaN Sim 3 NaN NaN Folheto Sim
核心步骤一:数据重塑 (Melt)
处理多重响应数据的关键在于将其从“宽格式”(每个响应选项一列)转换为“长格式”(所有响应选项合并到一个列中)。pandas.melt() 函数是实现这一目标的高效工具。
melt 函数通过以下参数工作:
melt 操作会将 value_vars 中的所有值堆叠到一个新的“value”列中,同时创建一个“variable”列来标识这些值来自哪个原始列。由于我们只关心响应值本身,不关心它具体来自 Q2_1 还是 Q2_2,所以可以随后删除“variable”列。
# 将多重响应列 Q2_1, Q2_2, Q2_3 重塑为长格式 dfm = df.melt(id_vars=['Q3'], value_vars=['Q2_1', 'Q2_2', 'Q2_3']) # 移除不再需要的 'variable' 列,因为它只是指示原始列名 dfm = dfm.drop('variable', axis=1) # 移除重塑后产生的 NaN 值,这些 NaN 值表示该行没有对应的响应 dfm = dfm.dropna() print("n重塑后的数据 (dfm):") print(dfm)
输出:
重塑后的数据 (dfm): Q3 value 0 Sim Na loja 1 Não Na loja 2 Sim Na loja 4 Sim Email 6 Sim Email 8 Sim Folheto 11 Sim Folheto
可以看到,Q2_1、Q2_2、Q2_3 中的所有非空响应都被收集到了 value 列中,并且每一行都与对应的 Q3 值配对。
核心步骤二:聚合与透视 (Groupby & Pivot_table)
数据重塑后,我们现在拥有了一个可以进行标准聚合操作的 DataFrame。接下来,我们将使用 groupby() 进行计数,并使用 pivot_table() 将结果转换为最终的交叉表格式。
分组计数 (groupby): 我们将按照 value 列(即多重响应的各个选项)和 Q3 列(目标变量)进行分组,并计算每个组合的出现次数。
透视表 (pivot_table): pivot_table 函数将分组后的计数结果重新组织成一个交叉表。
# 按 'value' 和 'Q3' 分组并计数 dfg = dfm.groupby(['value', 'Q3']).agg(count=('value', 'count')).reset_index() print("n分组计数结果 (dfg):") print(dfg) # 使用 pivot_table 将分组结果转换为交叉表 dff = pd.pivot_table(dfg, values='count', index=['value'], columns=['Q3'], aggfunc="sum", fill_value=0) print("n最终交叉表 (dff):") print(dff)
输出:
分组计数结果 (dfg): value Q3 count 0 Email Sim 2 1 Folheto Sim 2 2 Na loja Não 1 3 Na loja Sim 2 最终交叉表 (dff): Q3 Não Sim value Email 0 2 Folheto 0 2 Na loja 1 2
这样,我们就成功生成了期望的交叉表,展示了多重响应问题 Q2 的各项与 Q3 之间的关系。
功能扩展:百分比计算与通用函数
在实际分析中,除了绝对计数,我们通常还需要计算百分比,例如列百分比(各选项占对应 Q3 类别总数的百分比)。
计算列百分比
在得到绝对计数交叉表 dff 后,计算列百分比非常简单。只需将每个单元格的值除以其所在列的总和。
# 计算列百分比 dff_pct = dff.apply(lambda x: x / x.sum(), axis=0) print("n列百分比交叉表:") print(dff_pct.round(2)) # 四舍五入到两位小数
输出:
列百分比交叉表: Q3 Não Sim value Email 0.00 0.33 Folheto 0.00 0.33 Na loja 1.00 0.33
从列百分比交叉表可以看出:
- 在“Não”的受访者中,100%的人提到了“Na loja”。
- 在“Sim”的受访者中,提到“Email”、“Folheto”、“Na loja”的比例均为33%。
构建通用函数
为了方便重复使用,我们可以将上述逻辑封装成一个通用函数。这个函数可以接受原始 DataFrame、多重响应列的列表、目标变量列的名称以及一个指示是否计算百分比的参数。
def calculate_multiple_response_crosstab( df: pd.DataFrame, mr_cols: list, target_col: str, output_type: str = 'count' # 'count' 或 'percentage' ) -> pd.DataFrame: """ 计算多重响应问题与目标变量的交叉表。 参数: df (pd.DataFrame): 原始数据集。 mr_cols (list): 包含多重响应问题所有子列名的列表。 target_col (str): 目标变量的列名。 output_type (str): 输出类型,'count' 表示绝对计数,'percentage' 表示列百分比。 返回: pd.DataFrame: 生成的交叉表。 """ if not all(col in df.columns for col in mr_cols + [target_col]): raise ValueError("mr_cols 或 target_col 中有列名不存在于 DataFrame 中。") # 1. 数据重塑 (melt) df_melted = df.melt(id_vars=[target_col], value_vars=mr_cols) df_melted = df_melted.drop('variable', axis=1).dropna() if df_melted.empty: print("警告:重塑后无有效数据,可能所有多重响应列都为空。") return pd.DataFrame() # 2. 分组计数 (groupby) df_grouped = df_melted.groupby(['value', target_col]).agg(count=('value', 'count')).reset_index() # 3. 透视表 (pivot_table) crosstab_df = pd.pivot_table( df_grouped, values='count', index=['value'], columns=[target_col], aggfunc="sum", fill_value=0 ) # 4. 计算百分比(如果需要) if output_type == 'percentage': # 避免除以零,如果某一列总和为0,则该列百分比全为0 crosstab_df = crosstab_df.apply(lambda x: x / x.sum() if x.sum() != 0 else 0, axis=0) crosstab_df = crosstab_df.round(4) # 保留4位小数 return crosstab_df # 使用通用函数 # 计算绝对计数 crosstab_counts = calculate_multiple_response_crosstab(df, ['Q2_1', 'Q2_2', 'Q2_3'], 'Q3', output_type='count') print("n使用通用函数生成的绝对计数交叉表:") print(crosstab_counts) # 计算列百分比 crosstab_percentages = calculate_multiple_response_crosstab(df, ['Q2_1', 'Q2_2', 'Q2_3'], 'Q3', output_type='percentage') print("n使用通用函数生成的列百分比交叉表:") print(crosstab_percentages)
关于目标变量也为多重响应的思考: 如果目标变量 Q3 本身也是一个多重响应问题(例如,Q3_1, Q3_2),那么在调用函数之前,需要对 Q3 的多重响应列也进行类似的 melt 操作,然后将处理后的 Q3 数据与处理后的 Q2 数据进行合并,再进行 groupby 和 pivot_table。这会使逻辑更复杂,通常需要更精细的数据合并策略。
注意事项与最佳实践
- 数据清洗: 在进行分析前,确保多重响应列中的文本数据是统一的(例如,“Na loja”和“na loja”应统一)。缺失值(NaN)在 melt 后通常会被 dropna() 自动处理。
- 列名管理: 准确地识别并提供 mr_cols 列表至关重要。如果多重响应问题较多,可以使用字典来管理,例如 {‘Q2’: [‘Q2_1’, ‘Q2_2’, ‘Q2_3’], ‘Q4’: [‘Q4_1’, …]}。在函数内部,可以根据字典的值来构建 mr_cols。
- 结果解读: 绝对计数交叉表直观地显示了共现频率,而百分比交叉表则有助于理解比例关系。根据分析目的选择合适的输出类型。
- 性能考虑: 对于非常大的数据集,pandas 的 melt 和 pivot_table 操作通常是高效的。但在极端情况下,可能需要考虑内存使用和计算效率。
总结
通过结合 pandas.melt() 和 pandas.pivot_table(),我们可以有效地处理多重响应数据并生成有意义的交叉表。melt 函数将分散在多列中的响应值聚合到一列,解决了多重响应数据的结构性挑战;随后 groupby 和 pivot_table 则提供了灵活的聚合和可视化方式。这种方法不仅适用于市场研究和问卷分析,也广泛应用于需要将宽格式数据转换为长格式进行聚合分析的各种场景。掌握这一技术,将大大提升处理复杂数据集的能力。