欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ForeSpider采集教程:如何采集网页中附件数据

程序员文章站 2022-04-02 09:05:35
...

一. 网站内容

1. 网站截图说明

本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,故链接入口为:http://www.sxbid.com.cn/

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

【官网-二手房】

2. 链接列表采集结果预览

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

二. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

 

【新建任务】

Step1:按照图示1位置,点击“采集配置”。

Step2:按图示2位置,点击“任务列表”中的“+”。

Step3:在新建采集任务中输入采集网址即http://www.sxbid.com.cn/,任务名称可自定义,本次可输入为“中国石头招标投标网”。

点击“下一步”,需要采集正文数据,所以此处需要勾选“网页内所有链接”和“抽取数据”。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

 

2. 链接抽取配置

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

Step1:按照图示1位置,Ctrl+左键选中“链接列表”。

Step2:按照图示2位置,点击“确认选区”,保证我们的数据是被选中的状态

Step3:按照图示3位置点击“采集预览”,查看数据详情,如下图所示:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

3. 数据抽取

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

抽取数据(红框位置)中的链接 务必对应“链接列表”内的正文数据,即附件页面址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html

4. 配置表单

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:点击“数据建表”

Step3:点击“+”,新建表单并自定义名称,这里取为“zhaobiao”

根据所需内容,配置表单字段,此处配置了包括主键、网页地址URL、标题、附件。表单建立如下:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

【创建主键】

主键务必第一个创建,其含义为该表单所属ID

字段名称:hkey

采集内容 选择“主键”

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

 

【创建字段1-网页地址】

字段名称:url

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围240即可,最后点击确定。(备注可随意)

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

【创建字段2-标题】

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

高级类型 选择 “长文本(<64K)”。(备注可随意)

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

【创建字段3-附件】

字段名称:fujian

采集内容 选择“网页代码/图片等资料”-“数据流文件”

表单配置字段自定义即可,如有多需求 可按上述同样操作即可。最终呈现如下图:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

 

5. 关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

选择所需的表单,点击【创建】按钮

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

创建表名称可随意填写,需注意 仅可使用“全英文”

6. 确认选区

操作如下图所示:

Step1:按照图1位置,在左侧点击“tittle”

Step2:按照图2位置ctrl+左键选中文章标题

Step3:最后点击“确认选区”即可

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

 

Step1:按照图1位置,在左侧点击“tittle”

Step2:按照图2位置ctrl+左键选中文章标题

Step3:最后点击“确认选区”即可

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

Step1:按照图1位置,在左侧点击“fujian”

Step2:在页面最低端会出现“附件下载”的位置即图2所示,ctrl+左键选中附件内容。

点击保存,完成数据选区

7. 数据建表 模板预览

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

在“新建模板:02”处右键选择“模板预览”,即可查看是否采集出所需数据,如下图:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

Fujian字段数据出现“STREAM DATA”属于正常现象,请继续跟着教程完成最终采集。

三. 采集数据

1. 运行设置

运行设置处可以设置采集速度、采集策略、任务装载等。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

2. 选择采集任务

操作如下图数字所示:

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

Step1:选择【数据采集】

Step2:在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。

Step3:点击“连接数据库”选择“打开”,此步骤不可避免,因为采集需要和数据库进行关联。

 

3. 开始采集

点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

4.数据浏览

采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

【数据浏览】

5.导出数据

点击【导出】按钮,选择导出文件格式后保存。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

导出数据时需选择正确的“存储路径”

导出方式 选择 “导出字段”

欲导出字段 选择 下滑列表中的 “fujian”,最终点击确认即可完成。

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

导出时,文件名后缀务必改为“docm”格式,保存类型选择“All Files”

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

打开下载后的文件,一份完整的附件就这样轻松采集到了,你学会了吗?

ForeSpider采集教程:如何采集网页中附件数据
            
    
    博客分类: 爬虫教程数据采集技术干货 数据采集数据获取采集教程爬虫教程大数据学习 

更多大数据咨询可关注公众号【前嗅大数据】(ID:forenose)

定期分享各行各业大数据情报 、竞品分析、AI舆情监控报告、SEO知识分享等干货。

我们不止做数据采集,燃爆AI 大数据

 

你想要的 我们都有!