数据预处理--划分数据集(3)
程序员文章站
2022-06-01 16:22:44
...
分析:先按照有无造假结果进行划分
#按flag分为两个文件
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
D=pd.read_csv('D:\\泰迪杯\\alldata.csv',encoding='gbk',engine='python')#index_col=0 直接将第一列作为索引,不额外添加列
print(D.shape)
#把数据按有无Flag分类
D1=D[D['是否在当年造假'].isnull()]#是否在当年造假为空
D1.head()
D1.to_csv('D:\\泰迪杯\\notflag.csv',index=False)
print(D1.shape)
D2=D[D['是否在当年造假'].notna()]#前5年的数据(有最后一列是否造假结果)
D2.to_csv('D:\\泰迪杯\\flag.csv',index=False)
print(D2.shape)
根据题干再把D2分为制造业和非制造业
#读取数据
data =pd.read_csv(r'C:\Users\44933\Desktop\数据挖掘材料\全部数据\flag.csv',encoding='gbk')
industrys=data.iloc[:,1].drop_duplicates().to_list()
data_make=data[data['所属行业'] == '制造业']
data_make.to_csv('C:\\Users\\44933\\Desktop\\数据挖掘材料\\制造业flag.csv',index=None)
industrys.remove('制造业')
data_industry1 =data[data['所属行业'] == industrys[0]]
#建立循环,依次取出对应行业,并按列表中元素命名,存放在和原表同目录下
for industry in industrys[1:]:
data_industry =data[data['所属行业'] == industry]
data_industry1=pd.concat([data_industry1,data_industry],axis=0)
#把其他行业全部合并成一个文件
writer = 'C:\\Users\\44933\\Desktop\\数据挖掘材料\\其他行业flag.csv'
data_industry1.to_csv(writer,index=None)
结果:把全部数据拆分成有标签的制造业,有标签的其他行业,无标签的制造业,无标签的其他行业4个文件
上一篇: kali安装pip