欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】

程序员文章站 2022-04-02 09:36:49
...

以百度搜索关键词(baidu.com)为例:

一. 网站结构

  1. 网站截图说明

使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 检索列表页

 

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 检索结果页

2. 采集结果截图

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 检索列表链接前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 检索结果数据

 

二. 配置模板

  1. 新建任务

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 新建任务

点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 新建采集任务

2. 配置关键词

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 配置关键词

 

① 内置浏览器显示搜索页面后,按照提示:ctrl+左键单击搜索框,点击右下角【完成】。点击右上角【保存】,保存任务配置。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 保存关键词配置

 

② 关键词列表处,填写关键词,并点击保存。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 填写关键词

 

3. 采集预览

看关键词检索的链接是否能够出来,如果没有出来,应该使用脚本采集;如果可以出来,则继续操作。

 

4. 过滤链接列表

①用定位过滤链接,过滤关键词检索出的列表链接。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 定位过滤列表链接

 

② 采集预览,看是否过滤成功。

采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 采集预览

5. 过滤翻页链接

①用定位过滤链接,过滤翻页链接。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 定位过滤翻页链接

② 采集预览,看是否过滤成功

采集预览出现链接均为翻页的链接,过滤成功。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 采集预览

6.关联模板

通过关联模板,可以设置该链接将要跳转的下一层级页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整地采集数据。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 关联模板

如果没有创建模板02,可以自行创建模板。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 新建模板

7. 填写示例地址

模板二是为了抽取正文数据,故勾选【抽取数据】,并填写示例数据。

①选取任意一条检索结果的网址,也就是模板一过滤得到的任意一条链接,作为模板二的示例地址。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 填写示例地址

②点击【下一步】,自动生成数据抽取。

如果没有自动生成,则新建数据抽取。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 新建数据抽取

8. 创建/选择表单

表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 创建表单

9.配置表单

根据所需内容,配置表单字段,此处配置了包括网页标题、网页地址、全部文本三个字段。=>(字段各属性介绍)

方式一:快速建表。(点击【创建表单】出现弹窗。)

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 配置表单

方式二:*建表。(在【数据建表】界面。)

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 字段取值

 

10.字段取值

①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)

②web_title:通过字段定位取值,按ctrl+单击标题,确认选取。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 字段取值

③web_link:自动获取url地址。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 web_link

11. 关联数据表

先选择对应表单,然后再创建关联数据表,如图所示。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 创建关联数据表前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 定义表名称前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 勾选数据表

12. 模板预览

通过预览,可以了解配置是否能够正确地采集到所需数据。

方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。

点击任意一条链接,看看是否可以得到和网页对应的规整的数据。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 

 

方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 模板预览前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 预览结果

三.数据采集

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 运行设置

1. 选择采集任务

在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 选择采集任务

 

3. 开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 开始采集

4. 数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 数据浏览

 

5. 导出数据

点击【导出】按钮,选择导出文件格式后保存。

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 导出数据

 

前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
            
    
    博客分类: 教程技术干货数据采集 关键词采集 百度 大数据 爬虫 导出数据