欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ForeSpider采集教程发布(论坛类):零基础轻松获取数据

程序员文章站 2022-04-02 09:06:17
...

本篇以360问答论坛为例:

一.网站结构

1.网站截图说明

某些网站需要登陆后才可进行内容的采集,登陆时需先对登陆信息输入位置进行定位,便于后续采集

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【网站登陆页】

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【采集列表页】

2.采集结果截图

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

 

【检索列表链接】

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【检索结果数据】

二.配置模板

1.新建任务

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【新建任务】

2.新建采集任务

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【新建采集任务】

本次采集列表下的正文数据,所以本次需要抽取内容选择【链接列表】,为了将每一页的内容都成功采集选择【普通翻页】

3.配置登陆

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【网站登录界面】

①内置浏览器找到登录按钮,弹出登录框

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【网站登录顺序】

②先点击【用户名】

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【输入框定位】

③如上图,对【用户名输入框】进行定位,crtl+左键点击【用户名输入框】的位置,直至被绿色框住代表定位成功,并按此方式完成的位置定位

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【定位成功界面】

④【用户名】和【密码】定位完成后,点击,cookie配置框中出现数据,按Ctrl+鼠标左键单击“登录按钮”,内置浏览器页面登录成功,配置完成

4.配置模板

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【采集预览】

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“thread-”

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【地址过滤】

②勾选地址过滤,过滤规则选择包含,填入“thread-”

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【标题过滤】

③勾选标题过滤,过滤规则选择包含,填入''下一页''

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

 

【采集预览】

④点击采集预览,下一页和包含''thread-''的内容都被成功过滤,如下图:

5. 模板关联

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

 

【模板关联】

根据网页跳转规律,将【链接列表】关联【链接列表:02】, 【普通翻页】关联【默认模板:01】,此处软件已自动进行了关联,如果配置时发现关联有问题,可自行进行更改

6.数据抽取

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【数据抽取】

将模板一过滤得到的任意一条链接,作为链接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html

7.新建数据抽取

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【新建数据抽取】

新建数据抽取。直接点击链接列表,点击上面“新建数据抽取” 按钮,得到数据抽取,如下图:

8. 创建/选择表单

①创建表单

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【创建表单】

②配置表单

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【配置表单】

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、发布时间、正文内,网页标题以及网页地址五个字段,以配置发布时间(pubtime)为例

③数据抽取链接关联表单

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【关联表单】

选择刚才新创建的表单''360问答''

9.字段定位

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【字段定位】

主键字段自动生成无需定位,以pubtime字段为例进行定位,如下图所示,将各字段依次定位

10.采集预览

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【采集预览】

字段定位完成后,进行模板预览,查看是否所需内容都被采集进来

四.数据采集

1.连接数据库

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【连接数据库】

2.关联数据表

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【关联数据表】

3.选中数据表

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【选中数据表】

4.开始采集

ForeSpider采集教程发布(论坛类):零基础轻松获取数据
            
    
    博客分类: 教程 数据采集爬虫软件采集教程 

【开始采集】