Python如何对CSV数据做清洗_数据预处理常用操作【教程】

4次阅读

python清洗 csv 数据的核心步骤是：用 pandas 读取并观察 数据结构 ；统一处理缺失值（替换占位符、填充或删除）；标准化日期、数字、文本格式；剔除重复与异常值；最后保存为 UTF-8-SIG 编码的干净 CSV。

Python 如何对 CSV 数据做清洗_数据预处理常用操作【教程】

Python 处理 CSV数据清洗和预处理，核心是用 pandas 读取、识别问题、统一格式、填充或剔除异常，再输出干净数据。不复杂但容易忽略细节。

先用 pandas 加载文件，快速查看结构和典型值，判断是否有乱码、列名错位、空行等问题：

缺失值常见于空单元格、”NULL”、”N/A”、空白 字符串 等，需统一识别再处理：

同一含义的数据常以多种格式混存，需归一化才能后续分析：

日期列：用 pd.to_datetime(df[“date”], errors=”coerce”) 转换，错误值变 NaT；再用 dt.date 或 dt.strftime(“%Y-%m-%d”) 格式化
金额 / 数字含逗号或货币符号（如 ”$1,234.56″）：df[“price”].str.replace(r”[^d.-]”, “”, Regex=True).astype(Float)
文本列去首尾空格 + 统一小写：df[“name”] = df[“name”].str.strip().str.lower()
分类字段去重规整：df[“status”] = df[“status”].str.replace(r”s+”, ” “, regex=True).str.strip()

重复记录影响统计，明显错误值（如年龄 =999、价格 =-1）需定位清除：

查重复：df.duplicated().sum()；删重复（保留首次）：df.drop_duplicates(inplace=True)
按业务逻辑设合理范围，例如年龄在 0–120 之间：df = df[(df[“age”] >= 0) & (df[“age”]
用箱线图法识别数值离群点（可选）：Q1 = df[“score”].quantile(0.25); Q3 = df[“score”].quantile(0.75); IQR = Q3 – Q1; df = df[~((df[“score”] (Q3 + 1.5*IQR)))]

基本上就这些。清洗不是一步到位，建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv(“cleaned.csv”, index=False, encoding=”utf-8-sig”)（加 -sig 让excel能正常打开中文）。

发表于：后端开发

近两天内

复制链接

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Linux性能如何优化_最佳实践总结助你快速突破【教程】

Java DOM Level 3 Core是什么新增了哪些功能