数据预处理--划分数据集（3）

程序员文章站 2022-06-01 16:22:44

...

分析：先按照有无造假结果进行划分

#按flag分为两个文件
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
D=pd.read_csv('D:\\泰迪杯\\alldata.csv',encoding='gbk',engine='python')#index_col=0 直接将第一列作为索引，不额外添加列
print(D.shape)
#把数据按有无Flag分类
D1=D[D['是否在当年造假'].isnull()]#是否在当年造假为空
D1.head()
D1.to_csv('D:\\泰迪杯\\notflag.csv',index=False)
print(D1.shape)
D2=D[D['是否在当年造假'].notna()]#前5年的数据(有最后一列是否造假结果)
D2.to_csv('D:\\泰迪杯\\flag.csv',index=False)
print(D2.shape)

根据题干再把D2分为制造业和非制造业

#读取数据
data =pd.read_csv(r'C:\Users\44933\Desktop\数据挖掘材料\全部数据\flag.csv',encoding='gbk')
industrys=data.iloc[:,1].drop_duplicates().to_list()
data_make=data[data['所属行业'] == '制造业']
data_make.to_csv('C:\\Users\\44933\\Desktop\\数据挖掘材料\\制造业flag.csv',index=None)
industrys.remove('制造业')
data_industry1 =data[data['所属行业'] == industrys[0]]
#建立循环，依次取出对应行业，并按列表中元素命名，存放在和原表同目录下
for industry in industrys[1:]:
    data_industry =data[data['所属行业'] == industry]
    data_industry1=pd.concat([data_industry1,data_industry],axis=0)
#把其他行业全部合并成一个文件
writer = 'C:\\Users\\44933\\Desktop\\数据挖掘材料\\其他行业flag.csv'
data_industry1.to_csv(writer,index=None)

结果：把全部数据拆分成有标签的制造业，有标签的其他行业，无标签的制造业，无标签的其他行业4个文件

数据预处理--划分数据集（3）

小白求救！joomla3.x 安装问题数据库不能链接

用labelme制作自己的语义分割数据集

detectron2使用自定义的数据集

目标检测和语义分割数据集制作工具labelimg、labelme

caffe使用命令行方式训练预测mnist、cifar10及自己的数据集

Python3 中把txt数据文件读入到矩阵中的方法

目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式

C语言基础篇-数据类型（一）gcc编译和预处理

PHP数据集构建JSON及新数组介绍

IBM Database Patterns 指南，第 3 部分: 数据库工作负载标准

数据预处理--划分数据集（3）

小白求救！joomla3.x 安装问题 数据库不能链接

用labelme制作自己的语义分割数据集

detectron2使用自定义的数据集

目标检测和语义分割数据集制作工具labelimg、labelme

caffe使用命令行方式训练预测mnist、cifar10及自己的数据集

Python3 中把txt数据文件读入到矩阵中的方法

目标检测VOC数据集标注XML文件转EasyDL数据集标注Json格式

C语言基础篇-数据类型（一）gcc编译和预处理

PHP数据集构建JSON及新数组介绍

IBM Database Patterns 指南，第 3 部分: 数据库工作负载标准

小白求救！joomla3.x 安装问题数据库不能链接