Pandas DataFrame API 手册

DataFrame 是一个二维标签化数据结构，你可以将其想象为一个 Excel 电子表格或者 SQL 表，或者是一个字典类型的集合。

以下是 Pandas DataFrame 的常用 API 手册：

DataFrame 构造函数

方法	描述
`pd.DataFrame(data, index, columns, dtype, copy)`	创建一个 DataFrame 对象，支持自定义数据、索引、列名和数据类型。

DataFrame 属性

属性	描述
`DataFrame.values`	返回 DataFrame 的数据部分（numpy 数组）。
`DataFrame.index`	返回 DataFrame 的行索引。
`DataFrame.columns`	返回 DataFrame 的列名。
`DataFrame.dtypes`	返回每列的数据类型。
`DataFrame.shape`	返回 DataFrame 的形状（元组形式）。
`DataFrame.size`	返回 DataFrame 中元素的总数。
`DataFrame.empty`	检查 DataFrame 是否为空。
`DataFrame.ndim`	返回 DataFrame 的维度数（始终为 2）。
`DataFrame.T`	返回 DataFrame 的转置。
`DataFrame.axes`	返回行索引和列名的列表。
`DataFrame.memory_usage()`	返回每列的内存使用情况。

DataFrame 方法

数据查看

方法	描述
`DataFrame.head(n=5)`	返回前 n 行数据。
`DataFrame.tail(n=5)`	返回后 n 行数据。
`DataFrame.describe()`	返回 DataFrame 的统计摘要（如计数、均值、标准差等）。
`DataFrame.info()`	打印 DataFrame 的简要信息（如列名、数据类型、非空值数量等）。

缺失值处理

方法	描述
`DataFrame.isnull()`	检查每个元素是否为缺失值（NaN）。
`DataFrame.notnull()`	检查每个元素是否不为缺失值。
`DataFrame.dropna()`	删除包含缺失值的行或列。
`DataFrame.fillna(value)`	用指定值填充缺失值。

数据操作

方法	描述
`DataFrame.drop()`	删除指定的行或列。
`DataFrame.rename()`	重命名行索引或列名。
`DataFrame.set_index()`	将指定列设置为索引。
`DataFrame.reset_index()`	重置索引。
`DataFrame.sort_values()`	按值排序。
`DataFrame.sort_index()`	按索引排序。
`DataFrame.replace()`	替换 DataFrame 中的值。
`DataFrame.append()`	追加另一个 DataFrame。
`DataFrame.join()`	根据索引或列连接另一个 DataFrame。
`DataFrame.merge()`	根据指定列合并另一个 DataFrame。
`DataFrame.concat()`	沿指定轴连接多个 DataFrame。
`DataFrame.update()`	用另一个 DataFrame 的值更新当前 DataFrame。
`DataFrame.pivot()`	创建透视表。
`DataFrame.melt()`	将宽格式数据转换为长格式数据。

数据选择

方法	描述
`DataFrame.loc[]`	通过标签选择数据。
`DataFrame.iloc[]`	通过位置选择数据。
`DataFrame.at[]`	通过标签选择单个值。
`DataFrame.iat[]`	通过位置选择单个值。
`DataFrame.filter()`	根据列名选择数据。
`DataFrame.get()`	获取指定列的值。
`DataFrame.query()`	根据条件查询数据。

数据转换

方法	描述
`DataFrame.astype()`	将 DataFrame 转换为指定数据类型。
`DataFrame.apply()`	对 DataFrame 的行或列应用函数。
`DataFrame.applymap()`	对 DataFrame 的每个元素应用函数。
`DataFrame.map()`	对 Series 中的每个元素应用函数。
`DataFrame.to_dict()`	将 DataFrame 转换为字典。
`DataFrame.to_numpy()`	将 DataFrame 转换为 numpy 数组。
`DataFrame.to_csv()`	将 DataFrame 保存为 CSV 文件。
`DataFrame.to_excel()`	将 DataFrame 保存为 Excel 文件。

统计计算

方法	描述
`DataFrame.sum()`	返回每列的和。
`DataFrame.mean()`	返回每列的平均值。
`DataFrame.median()`	返回每列的中位数。
`DataFrame.min()`	返回每列的最小值。
`DataFrame.max()`	返回每列的最大值。
`DataFrame.std()`	返回每列的标准差。
`DataFrame.var()`	返回每列的方差。
`DataFrame.count()`	返回每列的非缺失值数量。
`DataFrame.corr()`	返回列之间的相关系数矩阵。
`DataFrame.cov()`	返回列之间的协方差矩阵。
`DataFrame.mode()`	返回每列的众数。
`DataFrame.quantile()`	返回每列的分位数。

时间序列操作

方法	描述
`DataFrame.dt`	访问日期时间属性（仅适用于 datetime 类型的列）。
`DataFrame.resample()`	对时间序列数据进行重采样。
`DataFrame.shift()`	将数据按时间轴移动。

字符串操作

方法	描述
`DataFrame.str`	访问字符串方法（仅适用于字符串类型的列）。
`DataFrame.str.lower()`	将字符串转换为小写。
`DataFrame.str.upper()`	将字符串转换为大写。
`DataFrame.str.contains()`	检查字符串是否包含指定模式。

实例

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
}, index=['a', 'b', 'c'])

# 查看数据
print(df.head(2)) # 输出前 2 行

# 缺失值处理
df_with_nan = pd.DataFrame({
'A': [1, None, 3],
'B': [4, 5, None]
})
print(df_with_nan.fillna(0)) # 用 0 填充缺失值

# 统计计算
print(df.mean()) # 输出每列的平均值

如果需要更详细的信息，可以参考 Pandas 官方文档。

小白教程 -- 学的不仅是技术，更是梦想！

参考手册

Pandas DataFrame API 手册

DataFrame 构造函数

DataFrame 属性

DataFrame 方法

数据查看

缺失值处理

数据操作

数据选择

数据转换

统计计算

时间序列操作

字符串操作

实例

实例

点我分享笔记

小白教程 -- 学的不仅是技术，更是梦想！

参考手册

Pandas DataFrame API 手册

DataFrame 构造函数

DataFrame 属性

DataFrame 方法

数据查看

缺失值处理

数据操作

数据选择

数据转换

统计计算

时间序列操作

字符串操作

实例

实例

点我分享笔记

微信关注