达观杯竞赛(1)读取数据
程序员文章站
2022-06-12 13:46:47
...
从网上下载到数据解压发现有train_set与test_set两个数据集
train_set里有10万多条数据,test_set里也是有10万多条数据
train_set里有4个columns
第一列id,id应该是对数据的一个标注,意义不大,是可以舍去的
第二列article,大概是文章的某些特征
第三列word_seg,seg应该是segment的缩写,大概是分割好的词汇
第四列class,class是类别吧
test_set里只有三个columns
这三列的意义与train_set里是一样的
缺少的一列是类别
读取数据操作如下:
import pandas as pd
from sklearn.model_selection import train_test_split
df = pd.read_csv('D:\\BaiduNetdiskDownload\\new_data\\train_set.csv',index_col = 0)#nrows = 100000,
#index_col = 0 第一列作为索引
#nrows = 100000 取前100000个数据
train_X,verify_X,train_Y,verify_Y = train_test_split(df['article'],df['class'],test_size=0.3,random_state=2019)
#df['article'] article列,是已经脱敏的数据
#df['class'] class列,也就是分类的结果
#test_size = 0.3 将数据集以7:3的比例分开
#random_state = 2019 将数据随机分开,并设定随机种子为2019(如果具有相同随机种子的参数,则可以保证大家的数据集与验证集是一样的。)
上一篇: Python树形打印目录结构
推荐阅读
-
Python--代码1(接口测试:测试用例从数据库读取写到yaml文件中)
-
ASP.NET MVC + EF 利用存储过程读取大数据,1亿数据测试很OK
-
asp下让数据库在需要读取的时候才打开第1/2页
-
Ajax+Asp源代码]读取数据库内容的表格(没有用框架)第1/2页
-
asp下让数据库在需要读取的时候才打开第1/2页
-
Ajax+Asp源代码]读取数据库内容的表格(没有用框架)第1/2页
-
达观杯竞赛(1)读取数据
-
PHP 读取 COM1 口的数据
-
PHP 读取 COM1 口的数据
-
Google Earth Engine(GEE)对指定地点Sentinel-2 Level1C数据的读取及云量处理