1 简介

开门见山,在pandas中,transform是一类非常实用的方法,通过它我们可以很方便地将某个或某些函数处理过程(非聚合)作用在传入数据的每一列上,从而返回与输入数据形状一致的运算结果。

本文就将带大家掌握pandas中关于transform的一些常用使用方式。

图1

2 pandas中的transform

pandastransform根据作用对象和场景的不同,主要可分为以下几种:

2.1 transform作用于Series

transform作用于单列Series时较为简单,以前段时间非常流行的「企鹅数据集」为例:

图2

我们在读入数据后,对bill_length_mm列进行transform变换:

  • 「单个变换函数」

我们可以传入任意的非聚合类函数,譬如对数化:

# 对数化
penguins['bill_length_mm'].transform(np.log)
图3

或者传入「lambda」函数:

# lambda函数
penguins['bill_length_mm'].transform(lambda s: s+1)
图4
  • 「多个变换函数」

也可以传入包含多个变换函数的「列表」来一口气计算出多列结果:

penguins['bill_length_mm'].transform([np.log, 
                                      lambda s: s+1
                                      np.sqrt])
图5

而又因为transform传入的函数,在执行运算时接收的输入参数是对应的「整列数据」,所以我们可以利用这个特点实现诸如「数据标准化」「归一化」等需要依赖样本整体统计特征的变换过程:

# 利用transform进行数据标准化
penguins['bill_length_mm'].transform(lambda s: (s - s.mean()) / s.std())
图6

2.2 transform作用于DataFrame

transform作用于整个DataFrame时,实际上就是将传入的所有变换函数作用到每一列中:

# 分别对每列进行标准化
(
    penguins
    .loc[:, 'bill_length_mm''body_mass_g']
    .transform(lambda s: (s - s.mean()) / s.std())
)
图7

而当传入多个变换函数时,对应的返回结果格式类似agg中的机制,会生成MultiIndex格式的字段名:

(
    penguins
    .loc[:, 'bill_length_mm''body_mass_g']
    .transform([np.log, lambda s: s+1])
)
图8

而且由于作用的是DataFrame,还可以利用字典以键值对的形式,一口气为每一列配置单个或多个变换函数:

# 根据字典为不同的列配置不同的变换函数
(
    penguins
    .loc[:, 'bill_length_mm''body_mass_g']
    .transform({'bill_length_mm': np.log,
                'bill_depth_mm'lambda s: (s - s.mean()) / s.std(),
                'flipper_length_mm': np.log,
                'body_mass_g': [np.log, np.sqrt]})
)
图9

2.3 transform作用于DataFrame的分组过程

在对DataFrame进行分组操作时,配合transform可以完成很多有用的任务,譬如对缺失值进行填充时,根据分组内部的均值进行填充:

# 分组进行缺失值均值填充
(
    penguins
    .groupby('species')[['bill_length_mm''bill_depth_mm'
                         'flipper_length_mm''body_mass_g']]
    .transform(lambda s: s.fillna(s.mean().round(2)))
)
图10

并且在pandas1.1.0版本之后为transform引入了新特性,可以配合CythonNumba来实现更高性能的数据变换操作,详细的可以阅读( https://github.com/pandas-dev/pandas/pull/32854 )了解更多。

除了以上介绍的内容外,transform还可以配合时间序列类的操作譬如resample等,功能都大差不差,感兴趣的朋友可以自行了解。


以上就是本文的全部内容,欢迎在评论区与我进行讨论~


©著作权归作者所有:来自51CTO博客作者mb5fe18fab305a5的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 在pandas中利用hdf5高效存储数据
  2. 在模仿中精进数据可视化01:国内38城居住自由指数
  3. 多快好省地使用pandas分析大型数据集
  4. 原来Python自带了数据库,用起来真方便!
  5. 异步函数中的异常处理及测试方法 [每日前端夜话(0x18)]
  6. 高效的10个Pandas函数,你都用过吗?
  7. 基于geopandas的空间数据分析——空间计算篇(上)
  8. 基于geopandas的空间数据分析—geoplot篇(下)
  9. 基于geopandas的空间数据分析—geoplot篇(上)

随机推荐

  1. Android滑动卡片效果:Swipecards
  2. android 手势识别
  3. Android中RadioGroup组与onCheckedChange
  4. Android Studio无法执行Java类的main方法
  5. Android 实现在Java代码中修改UI界面,并修
  6. Android API Differences Report
  7. Android ApiDemos示例解析(100):Views->A
  8. CreateProcess error=2, 系统找不到指定
  9. Android添加单元测试的方法与步骤
  10. Android SDK的docs访问速度很慢