7.3学习笔记(数据理解、筛选、计算分析)
程序员文章站
2022-07-13 09:01:18
...
数据理解和处理
当频繁出现几个独立变量时,可以使用pandas.get_dummies()将定性变量转换为Dummy变量
当有多个变量出现时,可以使用pandas.factorize()创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。
示例:将series[1,2,3]传入dummy
pd.get_dummies(pd.Series(list('abcaa')))
结果:
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
4 1 0 0
示例:将DataFrame传入dummy
df=pd.DataFrame({'A':['a','b','a'],'B':['b','a','c'],'C':[1,2,3]})
pd.get_dummies(df,prefix=['col1','col2'])
结果:
C col1_a col1_b col2_a col2_b col2_c
0 1 1 0 0 1 0
1 2 0 1 1 0 0
2 3 1 0 0 0 1
上一篇: Hadoop单节点部署