欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

前嗅大数据—ForeSpider教你如何采集【列表数据】

程序员文章站 2022-04-02 09:06:11
...

以采集起点中文小说网中(qidian.com/)的数据列表的数据为例:

一.网站结构

1.网站截图说明

采集起点中文网中的最近更新数据列表中的数据,如下图所示:

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【列表数据页面】

2.采集结果截图

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【采集出来的列表数据】

二.配置模板

  1. 新建任务

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

点击下一步,由于仅需要采集本页面表格数据,所以勾选【抽选数据】。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

2.创建/选择表单

表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【创建表单】

根据所需内容,配置表单字段,此处配置了id(主键)、fenlei(小说类别)、shuming(小说名称)、zuixin(最新章节)、zuozhe(作者)、shijian(更新时间)等字段。

注意:采集表格/列表数据时,id(主键)设置的时候,选择自增主键。=>(字段各属性介绍)

方式一:快速建表。(点击【创建表单】出现弹窗。)

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【配置表单】

方式二:*建表。(在【数据建表】界面。)

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【配置表单】

4.识别列表

选中表单后,chrl+点击表头第一个表格,后shift+点击其他表头扩大选取,直至所有表头均被选中,最后点击识别列表。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【识别列表】

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【列表识别成功】

5.字段取值

①fenlei:通过字段定位取值,按ctrl+单击标题,确认选取。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

②shuming:通过字段定位取值,按ctrl+单击标题,确认选取。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

 

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

③其他字段按照同样的方法进行字段取值。

6.关联数据表

先创建一个数据表,如下图所示

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

再关联表单,勾选数据表。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

7.模板预览

点击采集预览,进行预览。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【采集预览】

三.数据采集

  1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【运行设置】

2.选择采集任务

在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【选择采集任务】

3.开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【开始采集】

4.数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【数据浏览】

5.导出数据

点击【导出】按钮,选择导出文件格式后保存。

前嗅大数据—ForeSpider教你如何采集【列表数据】
            
    
    博客分类: 教程数据分析技术干货数据采集爬虫教程  

【导出数据】