前嗅教程：采集正文数据（不翻页）爬虫大数据前嗅ForeSpider

程序员文章站 2022-03-08 15:49:52

...

上周前嗅ForeSpider5.0已经和大家见面了，那么如何用ForeSpider5.0来采集各网页的正文数呢？今天小编就以采集凤凰网新闻正文为例为大家详细的介绍一下具体操作流程：

第一步：新建任务

①点击左上角“加号”新建任务，如图1：

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

②在弹窗里填写采集地址，任务名称如图2：

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

③点击下一步，选择进行数据抽取还是链接抽取，本次采集当前列表页新闻的正文数据，正文数据是通过点击列表链接进入的，所以本次需要抽取列表链接，所以点击抽取链接，如图3：

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第二步：通过智能过滤，得到所需链接。

① 按住Ctrl+鼠标左键点击所需链接；

② 击“智能过滤”按钮，如图4：

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第三步：点击采集预览确认链接是否过滤完全，如图5

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第四步：关联模板

在软件中模板的关联关系，与网页中链接跳转的关系相同。关联模板

根据网页跳转规律，将“链接列表”关联模板二“链接列表：02”，此处由于我们开始就选择了创建列表链接，所以软件自动关联好了模板二。如果配置的时候发现关联有问题，可以自己进行更改，如图6

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第五步：填写模板二示例地址并新建数据抽取

① 模板一过滤得到的任意一条链接，作为模板二的示例地址。

如：http://pl.ifeng.com/opinion/zhengnengliang/497/1.shtml，见图7：

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

②新建数据抽取

方法一：通过点击“下一步”后勾选抽取数据，再次点击“下一步”得到数据抽取，如图8

方法二：直接点击模板二，点击上面“新建数据抽取”按钮，得到数据抽取，如图8

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第六步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的是之前建过的凤凰网的表单，创建表单，如图9

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的如图10

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第七步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括标题、作者、发布时间、文本内容以及网址五个字段，表单如图11

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第八步：字段取值

取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

title字段，如图12

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第九步：模板预览

① 标右键点击“数据抽取”，然后点击“模板预览”，如图13

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

③ 预览结果如图14

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

第十步：采集预览

① 击右上角采集预览,如图15

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

②双击任意一条链接，看看是否可以得到和网页对应的规整的数据，如图16。

前嗅教程：采集正文数据（不翻页）

爬虫大数据前嗅ForeSpider

查看图片附件

相关标签：爬虫大数据前嗅 ForeSpider

上一篇： Python爬虫基础编程

下一篇：如何用大数据在5分钟内完成一份行业报告，以果酒行业为例

前嗅教程：采集正文数据（不翻页）爬虫大数据前嗅ForeSpider

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

前嗅教程：采集正文数据（翻页）

前嗅ForeSpider采集教程：采集【链接列表】的数据大数据爬虫数据采集采集链接

前嗅ForeSpider采集教程：采集安居客列表数据大数据安居客数据采集爬虫软件

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取数据采集大数据爬虫

前嗅ForeSpider采集教程：采集【链接列表】的数据大数据爬虫数据采集采集链接

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取数据采集大数据爬虫

前嗅ForeSpider数据采集教程：采集东方财富网链接列表

前嗅ForeSpider采集教学：通过关键词采集【检索结果】大数据采集教程 forespider 前嗅古诗词采集

前嗅ForeSpider采集教学：通过关键词采集【检索结果】大数据采集教程 forespider 前嗅古诗词采集

前嗅教程：采集正文数据（不翻页） 爬虫大数据前嗅ForeSpider

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

前嗅教程：采集正文数据（翻页）

前嗅ForeSpider采集教程：采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接

前嗅ForeSpider采集教程：采集安居客列表数据 大数据 安居客 数据采集 爬虫软件

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取 数据采集 大数据 爬虫

前嗅ForeSpider采集教程：采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取 数据采集 大数据 爬虫

前嗅ForeSpider数据采集教程：采集东方财富网链接列表

前嗅ForeSpider采集教学：通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集

前嗅ForeSpider采集教学：通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集

前嗅教程：采集正文数据（不翻页）爬虫大数据前嗅ForeSpider

前嗅ForeSpider采集教程：采集【链接列表】的数据大数据爬虫数据采集采集链接

前嗅ForeSpider采集教程：采集安居客列表数据大数据安居客数据采集爬虫软件

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取数据采集大数据爬虫

前嗅ForeSpider采集教程：采集【链接列表】的数据大数据爬虫数据采集采集链接

前嗅ForeSpider数据采集教程：通过识别列表进行数据抽取数据采集大数据爬虫

前嗅ForeSpider采集教学：通过关键词采集【检索结果】大数据采集教程 forespider 前嗅古诗词采集

前嗅ForeSpider采集教学：通过关键词采集【检索结果】大数据采集教程 forespider 前嗅古诗词采集