欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Pandas读取不同数据源的数据—文本文件、excel文件

程序员文章站 2024-01-19 14:50:34
...

pandas内置了10多种数据源读取函数和对应的数据写入函数,常见的有三种:数据库数据、文本文件(包括一般文本文件和CSV文件)、excel文件。

1.pandas读写excel文件
          (1) pandas提供了read_excel函数来读取xls,xlsx两种excel文件,语法与参数如下:
  pandas.read_excel(io,sheetname=0,header=0,index_col=None,names=None,dtype=None)
    io:接收string,表示文件路径,无默认
    sheetname:接收string、int,代表excel表内数据的分表位置,默认为0
    header:接收int或sequence,表示将某行数据作为列名,取值为int的时候,代表将该列作为列名,
              取值为sequence,则代表多重列索引,默认为infer,表示自动识别
    index_col:接收int或sequence或False,表示索引列的位置,取值为sequence代表多重索引,默认None
    names:接收array,表示列名,默认None
    dtype:接收dict,代表写入的数据类型(列名为key,数据格式为values),默认为None
    
        (2)将文件存储为excel文件,可以使用to_excel函数,其语法和常用参数如下:
  DataFrame.to_excel(excel_writer=None,sheetname='None',na_rep='',header=True,index=True,
                    index_label=None,mode='w',encoding=None)
 

import pandas as pd
user=pd.read_excel('.../data/user.xlsx')  #读取user.xlsx文件

#将客户信息存储为excel文件
user.to_excel('.../.../userInfo.xlsx')

2.Pandas读写文本文件

        CSV文件是一种用分隔符分隔的文件格式,分隔符不一定是逗号,也被称为字符分割文件。
        Pandas提供read_table来读取文本文件,提供了read_csv函数来读取CSV文件;其语法如下:
pandas.read_table(filepath,sep='\t',header='infer',names=None,index_col=None,dtype=None,
                              encoding=utf-8,engine=None,nrows=None)
pandas.read_csv(filepath,sep=',',header='infer',names=None,index_col=None,dtype=None,
                            encoding=utf-8,engine=None,nrows=None)

file_path:接收string,表示文件路径,无默认
sep:接收string,代表分隔符,read_csv默认为, read_table默认为制表符Tab
header:接收int或sequence,表示将某行数据作为列名,默认为infer,表示自动识别
names:接收array,表示列名,默认None    encoding指文件的编码格式,常用有UTF-8,UTF-16,GBK,GBK2312
index_col :接收int或sequence或False,表示索引列的位置,取值为sequence代表多重索引,默认None
dtype :接收dict,代表写入的数据类型(列名为key,数据格式为values),默认为None
engine:接收c或python,代表数据解析引擎,默认为c
nrows:接收int,表示读取前n行,默认为None

import pandas as pd
order=pd.read_table('meal_order_info.csv',sep=',',encoding='gbk')
print(len(order)) 

order1=pd.read_csv('meal_order_info.csv',encoding='gbk')
print(len(order1))