欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据可视化--pivot_table和crosstab

程序员文章站 2022-03-10 16:21:01
...
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
df = DataFrame({'类别':['水果','水果','水果','蔬菜','蔬菜','肉类','肉类'],
                '产地':['美国','中国','中国','中国','新西兰','新西兰','美国'],
                '水果':['苹果','梨','草莓','番茄','黄瓜','羊肉','牛肉'],
               '数量':[5,5,9,3,2,10,8],
               '价格':[5,5,10,3,3,13,20]})
print(df)

数据可视化--pivot_table和crosstab

1. pivot_table

pivot_table(指定行列对表内数值进行操作)

print(df.pivot_table(index=['产地','类别']))
print(df.pivot_table(index=['产地']))

行索引为产地和类别,默认列索引为价格和数量,值为价格和数量的平均值
行索引为产地,默认列索引为价格和数量,值为价格和数量的平均值
类似于以“产地和类别”或者“产地”分组,求取均值默认为数值类型的均值
数据可视化--pivot_table和crosstab
列为产地、类别,行则为数量、价格的均值

print(df.pivot_table(columns=['产地','类别']))

数据可视化--pivot_table和crosstab
不同产地不同类别下的价格值
按照产地、类别进行分类,统计价格最大值,aggfunc为聚合函数,可求平均值、加和值、最大最小值等,margins分类后的值进行加和,缺失值填充为0

df.pivot_table(values="价格",index="产地",columns="类别",aggfunc="sum",fill_value=0,margins=True)

数据可视化--pivot_table和crosstab

print(df.pivot_table('价格',index='产地',columns='类别',aggfunc='max',margins=True,fill_value=0)) 

数据可视化--pivot_table和crosstab

print(df.pivot_table('价格',index='产地',columns='类别'))

数据可视化--pivot_table和crosstab

2. crosstab

crosstab( 按类别分组,统计各个分组中产地的频数)

print(pd.crosstab(df['类别'],df['产地'],margins=True)) 

数据可视化--pivot_table和crosstab