欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

前嗅ForeSpider采集教学:通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集 

程序员文章站 2022-04-02 11:46:13
...

一. 网站内容

1. 网站截图说明

本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:

Step1:在官网输入关键词“鹅鹅鹅”,如图所示:

 

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Step1:复制该页面的链接,作为本次采集地址。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

二 . 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Step1:点击“采集配置”,点击【任务列表】中的“+”,新建采集任务。

Step2:在图示2位置中输入,对应“鹅鹅鹅”关键词下的网页地址。

Step3:勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。

需要采集正文数据,所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】,点击完成即可。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

2. 关键词配置

按图片数字所示,1-2-3完成新建任务的步骤

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Step1:点击图1所示左侧点击“新建任务”。

Step2:按照图2所示,点击右下角的“关键词”。

Step3:按照图3所示,在关键词列表中输入“鹅鹅鹅”。

注:在操作过程中要记得随时点击“保存”,随时保存进度。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Step1:点击图1所示左侧点击“链接抽取:网页全部链接”。

Step2:按照图2所示,Ctrl+左键 点击搜索框,目的是建立搜索选区,方便关键词的采集。

Step3:按照图3所示,点击“确认选区”。

3. 数据建表

按图片数字所示,1-2-3完成数据建表的操作

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:选择“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“李白”

根据所需内容,配置表单字段,此处配置了包括主键、诗词标题、诗句、作者。表单建立如下:

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 创建主键

字段名称:id

采集内容 选择“主键”,此处选“网页主键”。

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 创建字段1-标题

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:标题

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 创建字段2-作者

字段名称:author

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:作者

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 创建字段3-诗句内容

字段名称:content

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:诗句

最终数据表配置如下图即可:

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

4. 创建关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”。

创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

注意:创建完成后,记得“勾选”

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

5.数据建表 确认选区

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Step1:点击图1所示左侧点击“数据抽取:李白”。

Step2:按照图2所示,在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

Tittle选区选取:

Step1:点击左侧“tittle”

Step2:Ctrl+左键选择图示2位置的标题

Step3:点击图示3位置的“确认选区”即可完成

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

author选区选取:

Step1:点击左侧“author

Step2:Ctrl+左键选择图示2位置的作者

Step3:点击图示3位置的“确认选区”即可完成

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

content选区选取:

Step1:点击左侧“content

Step2:Ctrl+左键选择图示2位置的内容

Step2:点击图示3位置的“确认选区”即可完成

以上步骤完成后,点击右上角的“保存”,即可完成数据建表的步骤。

三. 关键词 检索结果预览

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集 

右键图示红框位置(页面左侧)的“默认模板:01”,选择“模板预览”,即可进行检索结果查询,如下图所示:

前嗅ForeSpider采集教学:通过关键词采集【检索结果】
            
    
    
        大数据 采集教程 forespider 前嗅 古诗词采集