欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

7.3学习笔记(数据理解、筛选、计算分析)

程序员文章站 2022-07-13 09:01:18
...

数据理解和处理
当频繁出现几个独立变量时,可以使用pandas.get_dummies()将定性变量转换为Dummy变量
当有多个变量出现时,可以使用pandas.factorize()创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

示例:将series[1,2,3]传入dummy

pd.get_dummies(pd.Series(list('abcaa')))

结果:
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
4 1 0 0

示例:将DataFrame传入dummy

df=pd.DataFrame({'A':['a','b','a'],'B':['b','a','c'],'C':[1,2,3]})
pd.get_dummies(df,prefix=['col1','col2'])

结果:
C col1_a col1_b col2_a col2_b col2_c
0 1 1 0 0 1 0
1 2 0 1 1 0 0
2 3 1 0 0 0 1