Python如何对CSV数据做清洗_数据预处理常用操作【教程】

4次阅读

python清洗 csv 数据的核心步骤是:用 pandas 读取并观察 数据结构 ;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为 UTF-8-SIG 编码 的干净 CSV。

Python 如何对 CSV 数据做清洗_数据预处理常用操作【教程】

Python 处理 CSV数据清洗 和预处理,核心是用 pandas 读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。

读取 CSV 并初步观察数据

先用 pandas 加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:

  • pd.read_csv(“data.csv”, encoding=”utf-8″) —— 明确指定 编码 ,避免 中文乱码;若报错可试encoding=”gbk”
  • df.head(5)df.info() 查看前几行和每列 数据类型、非空数量
  • df.describe(include=”all”) 快速了解数值与文本列的分布(如唯一值数、常见值)

处理缺失值与空字段

缺失值常见于空单元格、”NULL”、”N/A”、空白 字符串 等,需统一识别再处理:

  • df.replace({“”: pd.NA, “NULL”: pd.NA, “N/A”: pd.NA}) 把常见占位符转为标准缺失标记
  • df.isna().sum() 查看各列缺失数量
  • 数值列可填均值:df[“age”].fillna(df[“age”].mean(), inplace=True)
  • 文本列常用众数或固定值(如 ” 未知 ”):df[“city”].fillna(df[“city”].mode()[0], inplace=True)
  • 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=[“remark”], inplace=True)

统一格式:日期、数字、文本标准化

同一含义的数据常以多种格式混存,需归一化才能后续分析:

立即学习Python 免费学习笔记(深入)”;

  • 日期列:用 pd.to_datetime(df[“date”], errors=”coerce”) 转换,错误值变 NaT;再用 dt.datedt.strftime(“%Y-%m-%d”) 格式化
  • 金额 / 数字含逗号或货 符号(如 ”$1,234.56″):df[“price”].str.replace(r”[^d.-]”, “”, Regex=True).astype(Float)
  • 文本列去首尾空格 + 统一小写:df[“name”] = df[“name”].str.strip().str.lower()
  • 分类字段去重规整:df[“status”] = df[“status”].str.replace(r”s+”, ” “, regex=True).str.strip()

剔除重复与明显异常行

重复记录影响统计,明显错误值(如年龄 =999、价格 =-1)需定位清除:

  • 查重复:df.duplicated().sum();删重复(保留首次):df.drop_duplicates(inplace=True)
  • 按业务逻辑设合理范围,例如年龄在 0–120 之间:df = df[(df[“age”] >= 0) & (df[“age”]
  • 用箱线图法识别数值离群点(可选):Q1 = df[“score”].quantile(0.25); Q3 = df[“score”].quantile(0.75); IQR = Q3 – Q1; df = df[~((df[“score”] (Q3 + 1.5*IQR)))]

基本上就这些。清洗不是一步到位,建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv(“cleaned.csv”, index=False, encoding=”utf-8-sig”)(加 -sigexcel能正常打开中文)。

站长
版权声明:本站原创文章,由 站长 2025-12-18发表,共计1521字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
1a44ec70fbfb7ca70432d56d3e5ef742
text=ZqhQzanResources