如何将 SHAP Summary Plot 保存为高质量图像文件-小浪学习网

如何将 SHAP Summary Plot 保存为高质量图像文件

本文详细介绍了如何将 SHAP (SHapley Additive exPlanations) 库生成的 summary_plot 可视化结果保存为图像文件。针对直接使用 plt.savefig() 可能导致空白图片的问题，教程强调了显式创建和引用 matplotlib 图形对象的重要性。通过初始化一个 Figure 对象，并在其上绘制 SHAP 图，用户可以确保正确地捕获并保存图表，从而有效地管理模型解释结果的可视化输出。

理解问题：为什么直接保存可能失败

在使用 python 进行数据可视化时，matplotlib 是一个功能强大的库，而 shap 库在生成解释性图表时通常会利用 matplotlib 进行渲染。当用户尝试将 shap.summary_plot 生成的图表保存为图像文件时，常见的问题是直接调用 matplotlib.pyplot.savefig() 可能会保存一个空白的图片。

这通常是由于 matplotlib 对图表（Figure）和坐标轴（Axes）的内部管理机制造成的。matplotlib.pyplot 模块提供了一系列便捷函数，它们通常操作“当前”的图表和坐标轴。如果 shap.summary_plot 在内部创建了一个新的图表对象，或者在绘制完成后将其关闭，那么紧接着调用的 plt.savefig() 可能会尝试保存一个默认的、空的“当前”图表，而不是我们期望的 SHAP 图。

核心解决方案：显式管理 Matplotlib 图形对象

解决此问题的关键在于显式地创建和管理 matplotlib 的 Figure 对象。通过创建一个 Figure 实例，然后确保 SHAP 图绘制在这个特定的 Figure 上，最后再通过该 Figure 实例的方法来保存图像，可以确保保存的是正确的图表。

具体步骤如下：

初始化 matplotlib.pyplot.Figure 对象： 使用 fig = plt.figure() 创建一个新的图表对象。此时，这个新创建的图表会成为“当前”图表。
绘制 SHAP 图： 调用 shap.summary_plot()。由于 fig 是当前图表，SHAP 库会默认将图表内容绘制到这个图表上。
通过 Figure 对象保存： 使用 fig.savefig(save_path) 来保存图表。这会明确地告诉 matplotlib 保存 fig 这个对象所代表的图表，而不是依赖于“当前”图表的隐式状态。
关闭 Figure 对象： 使用 plt.close(fig) 关闭该图表，释放资源。

实践示例：保存 SHAP Summary Plot

下面通过一个具体的代码示例来演示如何正确地保存 SHAP Summary Plot。我们将沿用原始问题中的模型和数据结构，但重点放在 SHAP 图的生成与保存上。

1. 环境准备与模型训练

首先，确保安装了必要的库：numpy, tensorflow, shap, matplotlib。

import numpy as np import shap import matplotlib.pyplot as plt from tensorflow import keras from tensorflow.keras import layers  # 示例数据 (简化，仅用于演示目的) X = np.array([[(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)],               [(4,5,6,4,4),(5,6,4,3,2),(5,5,6,1,3),(3,3,3,2,2),(2,3,3,2,1)],               [(7,8,9,4,7),(7,7,6,7,8),(5,8,7,8,8),(6,7,6,7,8),(5,7,6,6,6)],               [(7,8,9,8,6),(6,6,7,8,6),(8,7,8,8,8),(8,6,7,8,7),(8,6,7,8,8)],               [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],               [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],               [(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)]]) y = np.array([0, 1, 2, 2, 1, 1, 0])  # 构建并编译模型 model = keras.Sequential([     layers.Conv1D(128, kernel_size=3, activation='relu', input_shape=(5,5)),     layers.MaxPooling1D(pool_size=2),     layers.LSTM(128, return_sequences=True),     layers.Flatten(),     layers.Dense(128, activation='relu'),     layers.Dense(3, activation='softmax') # 假设3个类别，与y的实际值对应 ])  model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])  # 训练模型 print("开始训练模型...") model.fit(X, y, epochs=10, verbose=0) # verbose=0 不显示训练进度 print("模型训练完成。")

2. SHAP 值计算

接下来，使用训练好的模型和数据计算 SHAP 值。

# 初始化 SHAP explainer explainer = shap.GradientExplainer(model, X) shap_values = explainer.shap_values(X)  # 定义要绘制的类别和特征索引 # shap_values 是一个列表，每个元素对应一个输出类别。 # 对于多分类模型，shap_values[cls] 是对应类别下的SHAP值数组。 # shap_values[cls][:,idx,:] 表示该类别下，所有样本的第idx个特征的所有维度SHAP值。 # X[:,idx,:] 对应所有样本的第idx个特征的所有维度原始数据。 cls = 0 # 示例：选择第一个输出类别 idx = 0 # 示例：选择第一个特征的SHAP值

3. 正确保存图表的代码实现

这是核心部分，演示如何显式管理 matplotlib 图形对象以正确保存 SHAP 图。

# 1. 初始化一个 matplotlib Figure 对象 fig = plt.figure()  # 2. 绘制 SHAP summary_plot 到当前 Figure 上 # 注意：这里我们传入了 shap_values[cls][:,idx,:] 和 X[:,idx,:] # 这意味着我们正在可视化特定类别 (cls) 下，特定特征索引 (idx) 的SHAP值。 # 根据你的模型输出和特征结构，你可能需要调整 cls 和 idx。 shap.summary_plot(shap_values[cls][:,idx,:], X[:,idx,:], show=False) # show=False 防止立即显示图表  # 3. 定义保存路径 save_path = 'shap_summary_plot.png'  # 4. 通过 Figure 对象保存图表 fig.savefig(save_path, bbox_inches='tight', dpi=300) # bbox_inches='tight' 裁剪空白边缘，dpi设置分辨率  # 5. 关闭 Figure 对象，释放内存 plt.close(fig)  print(f"SHAP summary plot 已成功保存到：{save_path}")

关键概念解析：Matplotlib 图形与坐标轴

plt.figure(): 此函数创建一个新的 Figure 对象（可以理解为一张画布或一个窗口），并将其设置为当前的 Figure。所有后续的绘图操作（如 plt.plot(), plt.scatter(), shap.summary_plot() 等）如果未明确指定绘图目标，通常会作用于这个当前的 Figure 及其默认的 Axes（坐标轴）。
fig.savefig(path): 这是 Figure 对象的一个方法。它会保存 fig 这个特定的 Figure 对象所包含的所有内容。这是推荐的保存方式，因为它明确指定了要保存哪个图表，避免了 plt.savefig() 可能因“当前图表”状态变化而保存错误内容的问题。
plt.savefig(path): 这是 matplotlib.pyplot 模块的一个函数。它尝试保存当前的 Figure。如果 shap.summary_plot 在内部创建了一个新的 Figure 并将其设置为当前，或者在绘制后又将当前 Figure 切换回一个空的默认 Figure，那么 plt.savefig() 就可能保存一个空图。
plt.close(fig) / plt.close(‘all’): 用于关闭一个或所有 Figure 对象，释放系统资源。对于在脚本中批量生成和保存图表时，及时关闭不再需要的 Figure 是一个良好的习惯。

高级选项与注意事项

图像分辨率 (dpi): 在 fig.savefig() 中，可以使用 dpi 参数来控制图像的分辨率。例如，dpi=300 会生成一个每英寸300点的图像，适用于印刷或高质量展示。
文件格式: 除了 .png，你还可以保存为其他格式，如 .jpg (JPEG), .svg (Scalable Vector Graphics), .pdf (Portable Document format) 等。SVG 和 PDF 是矢量图格式，放大后不会失真，非常适合出版物。
```
fig.savefig('shap_summary_plot.svg', bbox_inches='tight') # 保存为SVG矢量图
```
图表布局 (bbox_inches=’tight’): bbox_inches=’tight’ 参数在保存时会自动调整图表的边界，以尽可能地裁剪掉多余的空白边缘，使图表内容更紧凑。
显示图表 (plt.show()): 如果你想在保存之前先预览图表，可以在 shap.summary_plot() 调用之后、fig.savefig() 之前添加 plt.show()。但请注意，plt.show() 会阻塞程序执行，直到图表窗口被关闭。如果 shap.summary_plot 内部已经调用了 plt.show()，你可能需要通过设置 show=False 来阻止其自动显示。

多个图表: 如果需要在一个脚本中生成并保存多个 SHAP 图，建议为每个图表都创建一个独立的 Figure 对象，并分别进行绘制和保存。

# 示例：保存第二个类别的SHAP图 fig2 = plt.figure() shap.summary_plot(shap_values[1][:,idx,:], X[:,idx,:], show=False) fig2.savefig('shap_summary_plot_cls1.png', bbox_inches='tight', dpi=300) plt.close(fig2)

总结

正确保存 shap.summary_plot 的关键在于理解 matplotlib 的图表管理机制。通过显式地创建 Figure 对象，并在其上进行绘图，然后使用 Figure 实例的 savefig 方法，可以确保图表内容被准确地捕获和保存。这种方法不仅解决了空白图片的问题，也使得图表管理更加清晰和可控，是进行专业数据可视化输出的推荐实践。

文章版权归作者所有，未经允许请勿转载。

THE END

后端开发
# ai # 对象 # python # 为什么 # 数据结构 # format # numpy # matplotlib # tensorflow