达观杯竞赛（1）读取数据

程序员文章站 2022-06-12 13:46:47

...

从网上下载到数据解压发现有train_set与test_set两个数据集

train_set里有10万多条数据，test_set里也是有10万多条数据

train_set里有4个columns

第一列id，id应该是对数据的一个标注，意义不大，是可以舍去的

第二列article，大概是文章的某些特征

第三列word_seg，seg应该是segment的缩写，大概是分割好的词汇

第四列class，class是类别吧

test_set里只有三个columns

这三列的意义与train_set里是一样的

缺少的一列是类别

读取数据操作如下：

import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv('D:\\BaiduNetdiskDownload\\new_data\\train_set.csv',index_col = 0)#nrows = 100000,
#index_col = 0    第一列作为索引
#nrows = 100000   取前100000个数据

train_X,verify_X,train_Y,verify_Y = train_test_split(df['article'],df['class'],test_size=0.3,random_state=2019)
#df['article']    article列，是已经脱敏的数据
#df['class']      class列，也就是分类的结果
#test_size = 0.3  将数据集以7:3的比例分开
#random_state = 2019  将数据随机分开，并设定随机种子为2019（如果具有相同随机种子的参数，则可以保证大家的数据集与验证集是一样的。）

达观杯竞赛（1）读取数据

Python--代码1（接口测试：测试用例从数据库读取写到yaml文件中）

ASP.NET MVC + EF 利用存储过程读取大数据，1亿数据测试很OK

asp下让数据库在需要读取的时候才打开第1/2页

Ajax+Asp源代码]读取数据库内容的表格(没有用框架)第1/2页

asp下让数据库在需要读取的时候才打开第1/2页

Ajax+Asp源代码]读取数据库内容的表格(没有用框架)第1/2页

达观杯竞赛（1）读取数据

PHP 读取 COM1 口的数据

PHP 读取 COM1 口的数据

Google Earth Engine（GEE）对指定地点Sentinel-2 Level1C数据的读取及云量处理