欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

前嗅ForeSpider采集教程:采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接 

程序员文章站 2022-04-02 11:53:49
...

案例:采集“人上人”官网首页数据列表

人上人-最新资讯: gzrsr.com/news/

一. 网站内容

1. 网站截图说明

本教程通过采集“人上人”首页“最新资讯”栏目列表中的数据为例,故链接入口为:gzrsr.com/news/,如下图:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【人上人官网-“联系我们”】

2. 采集结果截图

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【链接列表采集预览】

一. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【新建任务】

Step1:点击“采集配置”

Step2:点击【任务列表】中的“+”,新建采集任务

Step3:在如图的红框中输入采集地址和任务名称(可自定义),完成后点击“下一步”。

需要采集正文数据,所以此处需要勾选【链接列表】和【普通翻页】,如图,最后点击“完成”即可。

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【新建采集任务】

2. 确认选区

由于我们只需要采集链接列表的数据,故需要过滤掉其他无效数据,保留最终有效数据。这里我们可以使用【确认选区】功能即可轻松筛查,操作如下图所示:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

Step1:点击Shift+左键,将页面中所有的“链接列表”选中。

Step2:点击“确认选区”即可完成有效数据的筛选。

3. 链接列表 采集预览

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

点击“采集预览”,左侧下滑列表中选择“链接列表”,最终呈现如下图所示即可表示筛选正确。

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【采集预览】

4. 普通翻页配置

按图片数字所示,1-2-3完成新建任务的步骤

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

Step1:点击左侧“链接抽取-普通翻页”

Step2:这时我们将网页拉到最底部,Ctrl+左键 选择“下一页”确认选区

Step3:勾选“标题过滤”,过滤规则选择“包含”并在输入框中,手动输入“下一页”即可完成 普通翻页的配置。

注意:记得随时点击右上角的“保存”,养成良好的操作习惯。

5. 普通翻页-采集预览

完成第4步骤后,点击右上方“采集预览”,最终呈现应如下图:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

左侧下滑列表中选择“全部有效链接”和“普通翻页”如均出现【下一页】则表示配置成功,进行下一步骤。

6. 添加【数据抽取】

完成链接列表和普通翻页配置后,最后我们应抽取网页中的列表数据,如下图:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

点击左侧“模板抽取配置”旁边的“+”,配置数据抽取,操作如下:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

最终如下:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

7. 数据抽取建表

按图片数字所示,1-2-3完成新建任务的步骤

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:选择“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“人上人数据”

根据所需内容,配置表单字段,此处配置了包括主键、标题、文章摘要等等。表单建立如下:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【创建主键】

字段名称:id

采集内容 选择“主键”,此处务必选“自增ID主键”。

PS:非链接内正文数据的“网页主键”

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【创建字段1-标题】

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围50即可,最后点击确定。(备注可随意)

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

【创建字段2-摘要】

字段名称:zhaiyao

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围100左右即可,最后点击确定。(备注可随意)

8. 创建关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。

注意:创建完成后,记得“勾选”

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

9. 数据建表 确认选区

ID字段务必保证是 “自增ID主键”,如果是“网页主键”在红框位置可选择更改。

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

Tittle选区:

Step1:点击左侧“tittle”

Step2:Ctrl+左键选择图示2位置的标题

Step2:点击图示3位置的“确认选区”即可完成

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

Zhaiyao选区:

Step1:点击左侧“zhaiyao”

Step2:Ctrl+左键选择图示2位置的文字部分

Step2:点击图示3位置的“确认选区”即可完成

以上步骤完成后,点击右上角的“保存”,即可完成数据建表的步骤。

三. 链接列表 数据预览

完成所有步骤后,最后点击右上方的“采集预览”即可查看“最新资讯”的链接列表数据啦~。

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接 

最终如下图所示,即可完成本次的操作了,你学会了吗?

前嗅ForeSpider采集教程:采集【链接列表】的数据
            
    
    
        大数据 爬虫 数据采集 采集链接