阿里巴巴AI - Pandas
程序员文章站
2022-05-30 22:50:48
Pandas的两个主要数据结构1.Series - 主要用于处理一维数据,一般由一个数组的数据构成。2.DataFrame - 主要用于处理二维数据。from pandas import Series, DataFrame-Seriesegimport pandas as pds1 = pd.Series([1,2,3,4])s1 // 0 1 1 2 2 3 3 4 dtype: int64s1.index//RangeIndex(star....
Pandas的两个主要数据结构
1.Series - 主要用于处理一维数据,一般由一个数组的数据构成。
2.DataFrame - 主要用于处理二维数据。
from pandas import Series, DataFrame
-Series
eg
import pandas as pd
s1 = pd.Series([1,2,3,4])
s1
// 0 1
1 2
2 3
3 4
dtype: int64
s1.index
//RangeIndex(start=0, stop=4, step=1)
s1.values
//array([1,2,3,4])
#利用index
s2 = pd.Series([100,78,65,90],index=["Chinese","English","History","Maths"])
s2
// Chinese 100
English 78
History 65
Maths 90
dtype: int64
s2[["English","History"]]
// English 78
History 65
dtype: int64
d1 = {"name":"John","Gender":"Male","Age":20}
s3 = pd.Series(d1)
#s3就跟平常的Series一样
-DataFrame
dfPerson = {'name':["Tom","Jack","Kitty","Eric"],'age':[20,21,20,21]}
personSheet = pd.DataFrame(dfPerson)
#形成了清晰的表格
// name age
0 Tom 20
1 Jack 21
2 Kitty 20
3 Eric 21
personSheet.head() #获取前五个数据
personSheet.columns
personSheet.values
personSheet.age
import bumpy as np
numframe = np.random.randn(10,5) #10行5列
numSheet = pd.DataFrame(numframe)
- 传入数据
personInfo = pd.read_csv('dir',header=None,names=["column1",...,"columnN"])
#header = None 表示不将数据的第一行作为列名,且names自定义列名
personInfo = pd.read_excel('dir',headeNone,names=["","",...,""])
personInfo.shape #获取excel文件的行和列
-排序
dataSort = pd.Series(range(5), index=['b','a','e','c','d'])
dataSort.sort_index() #升序排列
dataSort.sort_index(ascending=False) #降序排列
-分组
personInfoed = personInfo.groupby(['age'])
personInfoed.count() #求数量
本文地址:https://blog.csdn.net/weixin_43766746/article/details/107347969