欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

达观杯竞赛(1)读取数据

程序员文章站 2022-06-12 13:46:47
...

从网上下载到数据解压发现有train_set与test_set两个数据集

train_set里有10万多条数据,test_set里也是有10万多条数据

train_set里有4个columns

第一列id,id应该是对数据的一个标注,意义不大,是可以舍去的

第二列article,大概是文章的某些特征

第三列word_seg,seg应该是segment的缩写,大概是分割好的词汇

第四列class,class是类别吧

 

test_set里只有三个columns

这三列的意义与train_set里是一样的

缺少的一列是类别

 

读取数据操作如下:

import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv('D:\\BaiduNetdiskDownload\\new_data\\train_set.csv',index_col = 0)#nrows = 100000,
#index_col = 0    第一列作为索引
#nrows = 100000   取前100000个数据

train_X,verify_X,train_Y,verify_Y = train_test_split(df['article'],df['class'],test_size=0.3,random_state=2019)
#df['article']    article列,是已经脱敏的数据
#df['class']      class列,也就是分类的结果
#test_size = 0.3  将数据集以7:3的比例分开
#random_state = 2019  将数据随机分开,并设定随机种子为2019(如果具有相同随机种子的参数,则可以保证大家的数据集与验证集是一样的。)
相关标签: NLP