欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

pandas常用的方法

程序员文章站 2022-05-18 19:36:58
...

用法及解释如下所示

import pandas as pd
from pymongo import MongoClient
import numpy as np
#读取csv文件
# h=pd.read_csv("C:/Users/lenovo/Desktop/en.csv")
# print(h)


#pands读取mongodb
client=MongoClient()
collection=client["user"]["user"]
data=collection.find({},{"age":1,"name":1})


data2=collection.find()
#print(list(data))
t1=pd.DataFrame(data2)

#dateframe 排序
#print(t1.sort_values(by="age",ascending=False))#降序
t2=t1.sort_values(by="age",ascending=False)

#dateframe 取行或列
#写数组 表示取行
#写字符 表示取列
#print(t2[:3])#取前三行
#print(t2["name"])#取name列


#dataframe 切片
#loc取的是标签名
#取行标签为2和1,列标签为name和age
#print(t2.loc[[2,1],["name","age"]])
#取行标签为2,列标签为name
#print(t2.loc[2,"name"])

#iloc取的是第几行 第几列
#print(t2.iloc[[1,0],[2,1]])


#可以直接赋值为NaN
# t2.iloc[1,2]=np.NaN
# print(t2)


#布尔索引,条件可以用&或|隔开
#print(t2[(t2["age"]>22)&(t2["age"]<24)])

#输出是为NaN
#print(t2.isnull())
#输出不为NaN
#print(t2.notnull())

#输出age不为0的行
#print(t2[pd.notnull(t2["age"])])



#处理缺失数据的两种方法
#1 删除NaN所在的行或列(axis为0代表行,为1代表列,how为any是有NaN即删除,how为all是该行或列全为NaN才删除
# inplace为True代表在原来的基础上进行修改。为Flase代表在修改后生成一个新的)
#print(t2.dropna(axis=0,how="any",inplace=True))

#2 填充数据
#print(t2.fillna(22))#把NaN填充为22
print(t2["age"].fillna(t2["age"].mean()))#把t2年龄这一列为NaN的替换为该列的平均值(注意:mean方法在计算时不会把NaN计算在内)