Python如何检测异常数据—Z-score/IQR算法详解-小浪学习网

异常数据检测常用方法包括z-score和iqr。1. z-score适用于正态分布数据，通过计算数据点与均值相差多少个标准差，绝对值大于3则判定为异常；2. iqr适用于非正态分布数据，通过计算四分位距并设定上下界（q1-1.5×iqr和q3+1.5×iqr），超出范围的数值为异常值。选择方法应根据数据分布情况决定，z-score更直观但对分布敏感，iqr更稳健且通用，可结合可视化手段提升判断准确性。

Python如何检测异常数据—Z-score/IQR算法详解

检测异常数据是数据分析中一个非常关键的步骤，尤其是在做数据清洗或建模前。python 中常用的两种方法是 Z-score 和 IQR（四分位距）算法。这两种方法各有适用场景，也都有各自的优缺点。

Python如何检测异常数据—Z-score/IQR算法详解

下面我们就来详细说说它们分别是怎么工作的，以及在实际中该如何使用。

什么是异常值？为什么需要检测？

异常值指的是与整体数据分布明显偏离的数值，可能是由于录入错误、设备故障、极端情况等原因造成的。如果不加以处理，可能会对后续分析造成误导，比如影响模型训练效果、统计结论偏差等。

立即学习“Python免费学习笔记（深入）”；

Python如何检测异常数据—Z-score/IQR算法详解

所以，在进行任何分析之前，先识别并处理这些“离群点”是非常有必要的。

Z-score 方法：适用于正态分布的数据

Z-score 的核心思想是看某个数据点距离均值有多少个标准差。一般来说，如果一个值的 Z-score 绝对值大于3，就认为它是一个异常值。

Python如何检测异常数据—Z-score/IQR算法详解

公式如下：

Z = (x - μ) / σ

其中：

x 是当前数据点
μ 是数据的平均值
σ 是数据的标准差

实现步骤：

计算数据集的平均值和标准差
对每个数据点计算 Z-score
设置阈值（通常是 3 或 -3）
筛选出超出阈值的数据点作为异常值

示例代码：

import numpy as np  data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])  # 假设100是异常值 mean = np.mean(data) std = np.std(data) z_scores = [(x - mean) / std for x in data] outliers = [x for x, z in zip(data, z_scores) if abs(z) > 3]

注意：Z-score 对数据分布敏感，更适合近似正态分布的情况。如果你的数据偏态严重或者有大量极端值，这个方法可能不太靠谱。

IQR 方法：适用于非正态分布数据

IQR（Interquartile Range）即四分位距，是上四分位数（Q3）与下四分位数（Q1）之间的差值。这种方法不依赖于数据是否服从正态分布，因此更通用一些。

公式如下：

IQR = Q3 - Q1

异常值判断范围为：

下界：Q1 – 1.5 * IQR
上界：Q3 + 1.5 * IQR

落在这个区间之外的值就是异常值。

实现步骤：

找到 Q1 和 Q3
计算 IQR
定义上下限
筛选超出范围的数据点

示例代码：

import numpy as np  data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100]) Q1 = np.percentile(data, 25) Q3 = np.percentile(data, 75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = [x for x in data if x < lower_bound or x > upper_bound]