df在python数据处理中指pandas的dataframe对象,常被命名为df因它是“dataframe”缩写且通用。dataframe是二维表格型数据结构,具行标签和列标签,每列可存不同数据类型。常见操作包括:1.查看前几行用df.head();2.查看形状用df.shape;3.获取列名用df.columns;4.查看数据类型用df.dtypes;5.筛选列用df[‘列名’];6.筛选行用df.loc[索引];7.添加新列直接赋值;8.删除列用df.drop()。注意df为可变对象,修改时常需拷贝以保留原数据,使用df.info()可快速查看数据信息。
在python的数据处理中,df 通常是指 pandas 库中的 DataFrame 对象。很多使用 pandas 的人习惯把变量命名为 df,比如:
import pandas as pd df = pd.read_csv('data.csv')
这其实就是把一个 DataFrame 赋值给变量 df。虽然也可以起别的名字,但 df 是最常见、最通用的写法。
什么是DataFrame?
DataFrame 是 pandas 中最重要的数据结构之一,可以理解为一个二维表格型数据容器,有点像 excel 表格或者数据库中的一张表。它有行标签和列标签,每一列可以是不同的数据类型(比如整数、字符串、浮点数等)。
举个例子,你可以用下面的方式创建一个简单的 DataFrame:
立即学习“Python免费学习笔记(深入)”;
data = { '姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 28], '城市': ['北京', '上海', '广州'] } df = pd.DataFrame(data)
这样你就得到了一个包含姓名、年龄和城市的表格数据。
为什么大家都叫它 df?
- df 是 “DataFrame” 的缩写,简洁又直观;
- 在教学、博客、论坛中,大家普遍都这么用,已经形成了一种约定俗成的习惯;
- 数据分析脚本中经常会有多个 DataFrame,用 df1, df2 这样区分也很方便。
不过要注意的是,在实际项目或复杂代码中,建议使用更有意义的变量名,比如 sales_data、user_info 等,这样别人看你的代码更容易理解。
常见的 df 操作有哪些?
以下是一些你经常会看到的 df 操作方式:
- 查看前几行数据:df.head()
- 查看数据形状:df.shape
- 查看列名:df.columns
- 查看数据类型:df.dtypes
- 筛选某列数据:df[‘年龄’]
- 筛选某行数据:df.loc[0]
- 添加新列:df[‘新列名’] = 新数据
- 删除列:df.drop(‘列名’, axis=1, inplace=True)
这些操作构成了数据分析的基础,熟悉它们之后你会发现用 df 处理数据非常高效。
小细节别忽略
- df 默认是可变对象,也就是说很多操作会直接修改原数据,比如 inplace=True 参数。
- 如果你不希望原始数据被改动,记得先做拷贝:df_copy = df.copy()
- 使用 df.info() 可以快速查看是否有缺失值、各列的数据类型等信息。
基本上就这些了。虽然 df 只是一个变量名,但它背后承载的是整个 pandas 的核心能力。只要掌握了常用操作,日常的数据清洗、分析、可视化都能轻松应对。