Pandas DataFrame API 手册
DataFrame 是一个二维标签化数据结构,你可以将其想象为一个 Excel 电子表格或者 SQL 表,或者是一个字典类型的集合。
以下是 Pandas DataFrame 的常用 API 手册:
DataFrame 构造函数
| 方法 | 描述 | 
|---|---|
pd.DataFrame(data, index, columns, dtype, copy) | 
            创建一个 DataFrame 对象,支持自定义数据、索引、列名和数据类型。 | 
DataFrame 属性
| 属性 | 描述 | 
|---|---|
DataFrame.values | 
            返回 DataFrame 的数据部分(numpy 数组)。 | 
DataFrame.index | 
            返回 DataFrame 的行索引。 | 
DataFrame.columns | 
            返回 DataFrame 的列名。 | 
DataFrame.dtypes | 
            返回每列的数据类型。 | 
DataFrame.shape | 
            返回 DataFrame 的形状(元组形式)。 | 
DataFrame.size | 
            返回 DataFrame 中元素的总数。 | 
DataFrame.empty | 
            检查 DataFrame 是否为空。 | 
DataFrame.ndim | 
            返回 DataFrame 的维度数(始终为 2)。 | 
DataFrame.T | 
            返回 DataFrame 的转置。 | 
DataFrame.axes | 
            返回行索引和列名的列表。 | 
DataFrame.memory_usage() | 
            返回每列的内存使用情况。 | 
DataFrame 方法
数据查看
| 方法 | 描述 | 
|---|---|
DataFrame.head(n=5) | 
            返回前 n 行数据。 | 
DataFrame.tail(n=5) | 
            返回后 n 行数据。 | 
DataFrame.describe() | 
            返回 DataFrame 的统计摘要(如计数、均值、标准差等)。 | 
DataFrame.info() | 
            打印 DataFrame 的简要信息(如列名、数据类型、非空值数量等)。 | 
缺失值处理
| 方法 | 描述 | 
|---|---|
DataFrame.isnull() | 
            检查每个元素是否为缺失值(NaN)。 | 
DataFrame.notnull() | 
            检查每个元素是否不为缺失值。 | 
DataFrame.dropna() | 
            删除包含缺失值的行或列。 | 
DataFrame.fillna(value) | 
            用指定值填充缺失值。 | 
数据操作
| 方法 | 描述 | 
|---|---|
DataFrame.drop() | 
            删除指定的行或列。 | 
DataFrame.rename() | 
            重命名行索引或列名。 | 
DataFrame.set_index() | 
            将指定列设置为索引。 | 
DataFrame.reset_index() | 
            重置索引。 | 
DataFrame.sort_values() | 
            按值排序。 | 
DataFrame.sort_index() | 
            按索引排序。 | 
DataFrame.replace() | 
            替换 DataFrame 中的值。 | 
DataFrame.append() | 
            追加另一个 DataFrame。 | 
DataFrame.join() | 
            根据索引或列连接另一个 DataFrame。 | 
DataFrame.merge() | 
            根据指定列合并另一个 DataFrame。 | 
DataFrame.concat() | 
            沿指定轴连接多个 DataFrame。 | 
DataFrame.update() | 
            用另一个 DataFrame 的值更新当前 DataFrame。 | 
DataFrame.pivot() | 
            创建透视表。 | 
DataFrame.melt() | 
            将宽格式数据转换为长格式数据。 | 
数据选择
| 方法 | 描述 | 
|---|---|
DataFrame.loc[] | 
            通过标签选择数据。 | 
DataFrame.iloc[] | 
            通过位置选择数据。 | 
DataFrame.at[] | 
            通过标签选择单个值。 | 
DataFrame.iat[] | 
            通过位置选择单个值。 | 
DataFrame.filter() | 
            根据列名选择数据。 | 
DataFrame.get() | 
            获取指定列的值。 | 
DataFrame.query() | 
            根据条件查询数据。 | 
数据转换
| 方法 | 描述 | 
|---|---|
DataFrame.astype() | 
            将 DataFrame 转换为指定数据类型。 | 
DataFrame.apply() | 
            对 DataFrame 的行或列应用函数。 | 
DataFrame.applymap() | 
            对 DataFrame 的每个元素应用函数。 | 
DataFrame.map() | 
            对 Series 中的每个元素应用函数。 | 
DataFrame.to_dict() | 
            将 DataFrame 转换为字典。 | 
DataFrame.to_numpy() | 
            将 DataFrame 转换为 numpy 数组。 | 
DataFrame.to_csv() | 
            将 DataFrame 保存为 CSV 文件。 | 
DataFrame.to_excel() | 
            将 DataFrame 保存为 Excel 文件。 | 
统计计算
| 方法 | 描述 | 
|---|---|
DataFrame.sum() | 
            返回每列的和。 | 
DataFrame.mean() | 
            返回每列的平均值。 | 
DataFrame.median() | 
            返回每列的中位数。 | 
DataFrame.min() | 
            返回每列的最小值。 | 
DataFrame.max() | 
            返回每列的最大值。 | 
DataFrame.std() | 
            返回每列的标准差。 | 
DataFrame.var() | 
            返回每列的方差。 | 
DataFrame.count() | 
            返回每列的非缺失值数量。 | 
DataFrame.corr() | 
            返回列之间的相关系数矩阵。 | 
DataFrame.cov() | 
            返回列之间的协方差矩阵。 | 
DataFrame.mode() | 
            返回每列的众数。 | 
DataFrame.quantile() | 
            返回每列的分位数。 | 
时间序列操作
| 方法 | 描述 | 
|---|---|
DataFrame.dt | 
            访问日期时间属性(仅适用于 datetime 类型的列)。 | 
DataFrame.resample() | 
            对时间序列数据进行重采样。 | 
DataFrame.shift() | 
            将数据按时间轴移动。 | 
字符串操作
| 方法 | 描述 | 
|---|---|
DataFrame.str | 
            访问字符串方法(仅适用于字符串类型的列)。 | 
DataFrame.str.lower() | 
            将字符串转换为小写。 | 
DataFrame.str.upper() | 
            将字符串转换为大写。 | 
DataFrame.str.contains() | 
            检查字符串是否包含指定模式。 | 
实例
实例
import pandas as pd
# 创建 DataFrame
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
}, index=['a', 'b', 'c'])
# 查看数据
print(df.head(2)) # 输出前 2 行
# 缺失值处理
df_with_nan = pd.DataFrame({
'A': [1, None, 3],
'B': [4, 5, None]
})
print(df_with_nan.fillna(0)) # 用 0 填充缺失值
# 统计计算
print(df.mean()) # 输出每列的平均值
# 创建 DataFrame
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
}, index=['a', 'b', 'c'])
# 查看数据
print(df.head(2)) # 输出前 2 行
# 缺失值处理
df_with_nan = pd.DataFrame({
'A': [1, None, 3],
'B': [4, 5, None]
})
print(df_with_nan.fillna(0)) # 用 0 填充缺失值
# 统计计算
print(df.mean()) # 输出每列的平均值
如果需要更详细的信息,可以参考 Pandas 官方文档。
       
点我分享笔记