Python如何分析数据相关性—热力图与相关系数矩阵-小浪学习网

要分析数据相关性，最常用且直观的方式是使用 pandas 计算相关系数矩阵并用 seaborn 绘制热力图。1. 首先加载结构化数据并调用 df.corr() 得到皮尔逊相关系数矩阵，其值范围为 -1 到 1，分别表示负相关、无相关和正相关；2. 然后使用 seaborn.heatmap() 将矩阵可视化，通过颜色深浅快速识别强相关变量，参数 annot、cmap 和 fmt 可提升可读性；3. 实际应用中需注意变量过多导致图表密集、非数值列或缺失值导致的 nan 结果，以及根据数据特性选择合适的相关系数方法如 pearson、kendall 或 spearman。

Python如何分析数据相关性—热力图与相关系数矩阵

分析数据相关性是数据探索的重要一步，特别是在做特征选择或者理解变量间关系时。python 提供了多种工具可以方便地实现这一点，其中最常用的就是热力图（Heatmap）和相关系数矩阵（Correlation Matrix）。下面直接说重点：使用 Pandas 计算相关系数矩阵，再用 Seaborn 绘制热力图，是最直观、高效的方式。

Python如何分析数据相关性—热力图与相关系数矩阵

1. 准备数据与计算相关系数矩阵

大多数情况下，我们处理的是结构化数据，比如 CSV 或 excel 文件。加载之后，可以用 pandas.DataFrame.corr() 方法快速得到相关系数矩阵。

Python如何分析数据相关性—热力图与相关系数矩阵

import pandas as pd df = pd.read_csv('your_data.csv') corr_matrix = df.corr()

这个矩阵里的每个值代表两个变量之间的皮尔逊相关系数，范围在 -1 到 1 之间：

立即学习“Python免费学习笔记（深入）”；

接近 1：正相关，一个变量增大另一个也增大
接近 -1：负相关，一个变量增大另一个减小
接近 0：几乎没有线性关系

注意：corr() 默认只计算数值列之间的相关性，类别型字段会被忽略。

2. 用热力图可视化相关性

光看数字矩阵不太直观，这时候就可以用 Seaborn 的热力图来辅助理解：

import seaborn as sns import matplotlib.pyplot as plt  sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f') plt.show()

几个关键参数说明：

annot=True：在图中显示具体数值，方便查看
cmap=’coolwarm’：颜色映射方案，红暖蓝冷，视觉上对比明显
fmt=’.2f’：保留两位小数，整洁好看

热力图的颜色深浅能一眼看出哪些变量之间相关性强，特别适合在建模前快速筛选特征。

3. 常见问题与注意事项

有时候你可能会遇到以下几种情况：

热力图太密集看不清：可能是变量太多，建议只绘制部分字段，或使用 mask 隐藏重复的对称部分。
相关系数全是 NaN：检查是否所有列都是非数值类型，或者有大量缺失值。
想换其他相关系数方法：df.corr(method=…) 支持 pearson（默认）、kendall 和 spearman。

如果你的数据集变量较多，可以考虑先做一次初步筛选，再画图，这样更清晰也更容易发现模式。

基本上就这些。整个流程不复杂，但容易忽略细节，比如数据清洗、相关性方法的选择等。只要注意这些点，就能轻松完成数据相关性的初步分析。

文章版权归作者所有，未经允许请勿转载。

THE END

后端开发
# 工具 # python # excel # 值类型 # pandas