Pandas 数组/标量/数据类型参考手册
对于大多数数据类型,Pandas 使用 NumPy 数组作为具体的存储对象,这些对象被包含在 Index(索引)、Series(序列)或 DataFrame(数据框)中。
对于某些数据类型,Pandas 扩展了 NumPy 的类型系统。这些类型的字符串别名可以在 dtypes 中找到。
Pandas 数组
| 类/方法 | 描述 | 
|---|---|
pd.array(data, dtype) | 
            创建一个 Pandas 数组(ExtensionArray)。 | 
        
pd.Series.array | 
            返回 Series 的底层数组(ExtensionArray)。 | 
        
pd.arrays.IntegerArray | 
            用于存储整数数据的数组(支持缺失值)。 | 
pd.arrays.BooleanArray | 
            用于存储布尔数据的数组(支持缺失值)。 | 
pd.arrays.StringArray | 
            用于存储字符串数据的数组(支持缺失值)。 | 
pd.arrays.IntervalArray | 
            用于存储区间数据的数组。 | 
pd.arrays.DatetimeArray | 
            用于存储日期时间数据的数组。 | 
pd.arrays.TimedeltaArray | 
            用于存储时间差数据的数组。 | 
pd.arrays.PeriodArray | 
            用于存储周期数据的数组。 | 
pd.arrays.SparseArray | 
            用于存储稀疏数据的数组。 | 
Pandas 标量
| 类/方法 | 描述 | 
|---|---|
pd.NA | 
            表示缺失值的标量(类似于 NaN)。 | 
        
pd.Timestamp | 
            表示时间戳的标量。 | 
pd.Timedelta | 
            表示时间差的标量。 | 
pd.Period | 
            表示周期的标量。 | 
pd.Interval | 
            表示区间的标量。 | 
pd.Categorical | 
            表示分类数据的标量。 | 
Pandas 数据类型
| 类/方法 | 描述 | 
|---|---|
pd.StringDtype() | 
            字符串数据类型(支持缺失值)。 | 
pd.BooleanDtype() | 
            布尔数据类型(支持缺失值)。 | 
pd.Int8Dtype() | 
            8 位整数数据类型(支持缺失值)。 | 
pd.Int16Dtype() | 
            16 位整数数据类型(支持缺失值)。 | 
pd.Int32Dtype() | 
            32 位整数数据类型(支持缺失值)。 | 
pd.Int64Dtype() | 
            64 位整数数据类型(支持缺失值)。 | 
pd.Float32Dtype() | 
            32 位浮点数数据类型(支持缺失值)。 | 
pd.Float64Dtype() | 
            64 位浮点数数据类型(支持缺失值)。 | 
pd.CategoricalDtype() | 
            分类数据类型。 | 
pd.DatetimeTZDtype() | 
            带时区的日期时间数据类型。 | 
pd.PeriodDtype() | 
            周期数据类型。 | 
pd.IntervalDtype() | 
            区间数据类型。 | 
pd.SparseDtype() | 
            稀疏数据类型。 | 
常用方法
数组方法
| 方法 | 描述 | 
|---|---|
array.take(indices) | 
            根据索引从数组中提取元素。 | 
array.copy() | 
            复制数组。 | 
array.isna() | 
            检查数组中的缺失值。 | 
array.fillna(value) | 
            用指定值填充缺失值。 | 
array.unique() | 
            返回数组中的唯一值。 | 
array.value_counts() | 
            返回数组中每个值的频率。 | 
标量方法
| 方法 | 描述 | 
|---|---|
timestamp.to_pydatetime() | 
            将 Timestamp 转换为 Python 的 datetime 对象。 | 
        
timedelta.total_seconds() | 
            将 Timedelta 转换为总秒数。 | 
        
period.start_time | 
            返回 Period 的起始时间。 | 
        
period.end_time | 
            返回 Period 的结束时间。 | 
        
interval.left | 
            返回 Interval 的左边界。 | 
        
interval.right | 
            返回 Interval 的右边界。 | 
        
数据类型方法
| 方法 | 描述 | 
|---|---|
dtype.name | 
            返回数据类型的名称。 | 
dtype.kind | 
            返回数据类型的种类(如 i 表示整数,f 表示浮点数)。 | 
        
dtype.construct_array_type() | 
            返回与数据类型关联的数组类。 | 
实例
import pandas as pd
# 创建 Pandas 数组
arr = pd.array([1, 2, None], dtype=pd.Int64Dtype())
print(arr)
# 使用 Pandas 标量
ts = pd.Timestamp('2023-01-01')
print(ts.year) # 输出年份
# 使用 Pandas 数据类型
dtype = pd.StringDtype()
print(dtype.name) # 输出数据类型名称
# 创建 Pandas 数组
arr = pd.array([1, 2, None], dtype=pd.Int64Dtype())
print(arr)
# 使用 Pandas 标量
ts = pd.Timestamp('2023-01-01')
print(ts.year) # 输出年份
# 使用 Pandas 数据类型
dtype = pd.StringDtype()
print(dtype.name) # 输出数据类型名称
如果需要更详细的信息,可以参考 Pandas 官方文档。
       
点我分享笔记