Pandas简单操作
程序员文章站
2022-07-14 15:42:50
...
pandas读取csv文件
运行环境jupyter
import pandas as pd
task1=pd.read_csv(r'./附件1.csv',engine='python')
task1
read_csv()基本参数:文件路径
Pandas抽取数据
如果数据存在索引,可以通过索引抽取其中一列或者一行
task1['地点']
如果需要抽取列中特定的属性,可以在抽取时指定属性为条件。可以直接直接抽取一个属性或多个属性。然后通过pandas的to_csv()方法写到本地文件夹,to_csv()需要参数来指定位置。
task1_1A= task1[task1['地点'] == 'A']#查询值
task1_1A.to_csv('./task1_1A.csv',encoding='GB2312')
或
li=['A']
task1_ano_A=task1[task1['地点'].isin(li)]
task1_ano_A.to_csv('./task1_ano_A.csv',encoding='GB2312')
Pandas日期操作
通过pandas中的to_datetime将字符串类型日期转换为datetime64类型日期。如果不是str类型的可以通过astype(“str”)转化一列的类型。
from pandas import to_datetime
cost_time=to_datetime(task1_1A['支付时间'],format='%Y/%m/%d')
format参数设置
%Y 4位数的年
%y 2位数的年
%m 2位数的月[01,12]
%d 2位数的日[01,31]
%H 时(24小时制)[00,23]
%l 时(12小时制)[01,12]
%M 2位数的分[00,59]
%S 秒[00,61]有闰秒的存在
%w 用整数表示的星期几[0(星期天),6]
%F %Y-%m-%d简写形式例如,2017-06-27
%D %m/%d/%y简写形式
cost_month=cost_time.dt.month
property包括
second:获取日期中的秒
minute:分钟
hour :小时
day:天
month :月
year :年份
weekday:1周中的第几天
对列进行操作
求和等,可以参考代码提示或官方文档。
test=task1_1A[cost_time.dt.month==4]
test['实际金额'].sum()
groupby对数据中的一些列进行操作。
groupby()指定要分组的列,如果有多个列可以放在列表中作为参数。[]选择要对分组进行操作的列,agg()指定多个操作类型。
mt=task2.groupby(['顾客编号','销售月份'])['销售金额'].agg(['sum','count'])