欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ForeSpider采集教程:如何采集图片及链接地址

程序员文章站 2022-04-02 09:06:05
...

一. 网站结构

1. 网站截图说明

采集昵图网某页面中所有图片及链接地址

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【昵图网某页面】

2. 采集结果截图

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【检索列表链接】

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【检索数据结果】

二. 配置模板

1.新建任务

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【新建采集任务】

2.过滤链接列表

①用定位过滤链接,过滤关键词检索出的列表链接。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【定位过滤列表链接】

②采集预览,看是否过滤成功。

采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【采集预览】

3. 过滤翻页链接

①用定位过滤链接,过滤翻页链接。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【定位过滤翻页链接】

②采集预览,看是否过滤成功

采集预览出现链接均为翻页的链接,过滤成功。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【采集预览】

4.新建数据抽取

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

5.添加示例地址

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

6.创建/选择表单

表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

7.配置表单

根据所需内容,配置表单字段,此处配置了包括主键、网页地址、图片三个字段。=>(字段各属性介绍)

方式一:快速建表。(点击【创建表单】出现弹窗。)

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【配置表单】

方式二:*建表。(在【数据建表】界面。)

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【字段取值】

8.关联表单

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

 

 

9.字段取值

①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)

②url:当前页面网址,自动取值。

③name1:通过字段定位取值,按ctrl+单击标题,确认选取。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【name1】

④fujian:通过字段定位取值,按ctrl+单击图片,确认选取。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

10.关联数据表

先选择对应表单,然后再创建关联数据表,如图所示。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【创建关联数据表】

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【定义表名称】

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【勾选数据表】

11.模板预览

通过预览,可以了解配置是否能够正确地采集到所需数据。

方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。

点击任意一条链接,看看是否可以得到和网页对应的规整的数据。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【模板预览】

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【预览结果】

三.数据采集

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

 

【运行设置】

2. 选择采集任务

在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【选择采集任务】

3. 开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【开始采集】

4.数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【数据浏览】

5.导出数据

点击【导出】按钮,选择导出文件格式后保存。

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【导出数据】

ForeSpider采集教程:如何采集图片及链接地址
            
    
    博客分类: 爬虫教程技术干货数据采集 数据采集 

【导出数据】

相关标签: 数据采集