欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ForeSpider采集教程发布(表格类):零基础轻松获取数据

程序员文章站 2022-04-02 09:06:05
...

本篇以孔夫子旧书网为例:

一.网站结构

1.网站截图说明

该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【网站列表页】

2.采集结果截图

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【采集数据结果】

二.配置模板

1.新建任务

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【新建任务】

点击【下一步】,需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】,如图:

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【新建采集任务】

2.创建/选择表单

①创建表单

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【创建表单】

②配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【配置表单】

③数据抽取链接关联表单

选择刚才新创建的表单''孔夫子''

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【关联表单】

3.字段定位

取值方法:由于此处活取的是列表页的数据,所以可以应用“识别列表”功能,直接取到列表数据,操作方法如下:

①点击“数据抽取-孔夫子”,按住ctrl+鼠标左键点击定位标题内容

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【定位标题】

 

②按住Shift+鼠标左键继续点击,直到点击到选中整个第一条数据

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【定位第一条数据】

③在软件的右下角可以看到“识别列表”按钮 ,此时点击“识别列表”,如下图,此时列表中的内容都已经选中。

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【定位全数据】

④对每个字段进行取值,方法依然是:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。如:price字段,见下图:

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【字段定位】

4.模板预览

鼠标右键点击“孔夫子”,然后点击“模板预览”

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【模板预览】

5.过滤翻页链接

勾选标题过滤,过滤规则选择包含,填入''下一页''

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【过滤翻页】

三.数据采集

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

1.连接数据库

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【连接数据库】

2.创建数据表

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

【创建数据表】

3.选中数据表

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【关联数据表】

4.开始采集

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

【开始采集】

5.采集结果

ForeSpider采集教程发布(表格类):零基础轻松获取数据
            
    
    博客分类: 教程数据分析数据采集技术干货 数据采集数据获取爬虫软件爬虫教程采集教程 

 

 

 

【采集结果】