欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据预处理--划分数据集(3)

程序员文章站 2022-06-01 16:22:44
...

分析:先按照有无造假结果进行划分

#按flag分为两个文件
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
D=pd.read_csv('D:\\泰迪杯\\alldata.csv',encoding='gbk',engine='python')#index_col=0 直接将第一列作为索引,不额外添加列
print(D.shape)
#把数据按有无Flag分类
D1=D[D['是否在当年造假'].isnull()]#是否在当年造假为空
D1.head()
D1.to_csv('D:\\泰迪杯\\notflag.csv',index=False)
print(D1.shape)
D2=D[D['是否在当年造假'].notna()]#前5年的数据(有最后一列是否造假结果)
D2.to_csv('D:\\泰迪杯\\flag.csv',index=False)
print(D2.shape)

根据题干再把D2分为制造业和非制造业

#读取数据
data =pd.read_csv(r'C:\Users\44933\Desktop\数据挖掘材料\全部数据\flag.csv',encoding='gbk')
industrys=data.iloc[:,1].drop_duplicates().to_list()
data_make=data[data['所属行业'] == '制造业']
data_make.to_csv('C:\\Users\\44933\\Desktop\\数据挖掘材料\\制造业flag.csv',index=None)
industrys.remove('制造业')
data_industry1 =data[data['所属行业'] == industrys[0]]
#建立循环,依次取出对应行业,并按列表中元素命名,存放在和原表同目录下
for industry in industrys[1:]:
    data_industry =data[data['所属行业'] == industry]
    data_industry1=pd.concat([data_industry1,data_industry],axis=0)
#把其他行业全部合并成一个文件
writer = 'C:\\Users\\44933\\Desktop\\数据挖掘材料\\其他行业flag.csv'
data_industry1.to_csv(writer,index=None)

结果:把全部数据拆分成有标签的制造业,有标签的其他行业,无标签的制造业,无标签的其他行业4个文件

相关标签: python 数据挖掘