CSV文件导入Python,遇到问题解决
程序员文章站
2022-03-31 19:15:03
...
#导入相应模块
# -*- coding: utf-8 -*-
import re
import os
import pandas as pd
import numpy as np
import csv
#定义一个空列表
data_list = []
file_in = "/Desktop/touzhiren/"
file_out = "/Desktop/tzrhz1126.csv"
for info in os.listdir(file_in):
domain = os.path.abspath(file_in) #获取文件夹的路径
info = os.path.join(domain,info) #将路径与文件名结合起来就是每个文件的完整路径
data = pd.read_csv(info,encoding="GBK")
data_list.append(data)
all_data = pd.concat(data_list)
all_data = all_data.drop_duplicates(["账务流水号"],keep="last")
all_data.tail()
# 将DataFrame存储为csv,index表示是否显示行名,default=True
all_data.to_csv(file_out,index=False,sep=',')
print("succesfully")
其中在data = pd.read_csv(info,encoding=“GBK”) 这里出现错误;总是显示"GBK"类型不对;
但是我昨天跑程序都没问题;
后来我用了 open(info,“rb”,“GBK”),虽然能够保证导入数据,但数据出现错误;
没办法,还是得在文件中寻找问题。
在 data = pd.read_csv(info,encoding=“GBK”) 下面一行加了1列 print(info),终于找到问题文件(2000多个CSV文件里面,夹杂了1个文本);
将文本提出来后,问题解决了;以后会吸取教训;