python清洗 csv 数据的核心步骤是:用 pandas 读取并观察 数据结构 ;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为 UTF-8-SIG 编码 的干净 CSV。

Python 处理 CSV数据清洗 和预处理,核心是用 pandas 读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。
读取 CSV 并初步观察数据
先用 pandas 加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:
- pd.read_csv(“data.csv”, encoding=”utf-8″) —— 明确指定 编码 ,避免 中文乱码;若报错可试encoding=”gbk”
- df.head(5) 和 df.info() 查看前几行和每列 数据类型、非空数量
- df.describe(include=”all”) 快速了解数值与文本列的分布(如唯一值数、常见值)
处理缺失值与空字段
缺失值常见于空单元格、”NULL”、”N/A”、空白 字符串 等,需统一识别再处理:
- 用 df.replace({“”: pd.NA, “NULL”: pd.NA, “N/A”: pd.NA}) 把常见占位符转为标准缺失标记
- 用 df.isna().sum() 查看各列缺失数量
- 数值列可填均值:df[“age”].fillna(df[“age”].mean(), inplace=True)
- 文本列常用众数或固定值(如 ” 未知 ”):df[“city”].fillna(df[“city”].mode()[0], inplace=True)
- 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=[“remark”], inplace=True)
统一格式:日期、数字、文本标准化
同一含义的数据常以多种格式混存,需归一化才能后续分析:
立即学习“Python 免费学习笔记(深入)”;
- 日期列:用 pd.to_datetime(df[“date”], errors=”coerce”) 转换,错误值变 NaT;再用 dt.date 或 dt.strftime(“%Y-%m-%d”) 格式化
- 金额 / 数字含逗号或货 币符号(如 ”$1,234.56″):df[“price”].str.replace(r”[^d.-]”, “”, Regex=True).astype(Float)
- 文本列去首尾空格 + 统一小写:df[“name”] = df[“name”].str.strip().str.lower()
- 分类字段去重规整:df[“status”] = df[“status”].str.replace(r”s+”, ” “, regex=True).str.strip()
剔除重复与明显异常行
重复记录影响统计,明显错误值(如年龄 =999、价格 =-1)需定位清除:
- 查重复:df.duplicated().sum();删重复(保留首次):df.drop_duplicates(inplace=True)
- 按业务逻辑设合理范围,例如年龄在 0–120 之间:df = df[(df[“age”] >= 0) & (df[“age”]
- 用箱线图法识别数值离群点(可选):Q1 = df[“score”].quantile(0.25); Q3 = df[“score”].quantile(0.75); IQR = Q3 – Q1; df = df[~((df[“score”] (Q3 + 1.5*IQR)))]
基本上就这些。清洗不是一步到位,建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv(“cleaned.csv”, index=False, encoding=”utf-8-sig”)(加 -sig 让excel能正常打开中文)。