前嗅ForeSpider数据采集教程:采集东方财富网链接列表
案例:采集【东方财富网】首页新闻列表中的新闻
一. 网站内容
1. 网站截图说明
本教程以采集“东方财富网”首页新闻列表中的新闻(正文数据)为例,如下图。
东方财富官网
2. 采集结果截图
链接列表采集预览
二. 操作方法
1. 新建任务
按图片数字所示,1-2-3完成新建任务的步骤
新建任务
Step1:点击“采集配置”
Step2:点击【任务列表】中的“+”,新建采集任务
Step3:在如图的红框中输入采集地址和任务名称(可自定义),完成后点击“下一步”。
需要采集正文数据,所以此处需要勾选【链接列表】,如图,最后点击“完成”即可。
新建采集任务
2. 链接抽取配置
Step1:内置浏览器显示搜索页面后,按照提示:ctrl+左键单击文章标题。
Step2:点击【智能过滤】按钮,这时右侧的地址过滤会显示出相应的代码。
Step3:最后点击右上角的【采集预览】查看是有内容,如下图:
3. 数据抽取
在【新建任务】中输入的网址只是我们想采集的预览页面,具体采集的正文内容(数据)需要进入详情页面。
按照图示数据操作:
Step1:双击左侧红框位置,可自定义名称。
Step2:勾选【抽取数据】将对应的层级链接复制粘贴到【示例地址】中,最后点击“下一步”即可完成。
4. 配置表单
如图示点击【数据建表】:
Step1:点击“采集配置”
Step2:选择“数据建表”
Step2:点击“+”,新建表单并自定义名称,这里取“东方财富”
根据所需内容,配置表单字段,此处配置了包括主键、标题、作者、发布时间、文章内容等等。表单建立如下:
创建主键
主键务必第一个创建,其含义为该表单所属ID
字段名称:hkey
采集内容 选择“主键”
数据类型 选择“长数字”
字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”
最后点击“确定”即可。
创建字段1-标题
字段名称:tittle
采集内容 选择“选区内可见文本”
数据类型 选择“字符串”
数据长度 选择 范围10-20即可,最后点击确定。(备注可随意)
创建字段2-作者
字段名称:author
采集内容 选择“选区内可见文本”
数据类型 选择“字符串”
数据长度 选择 范围10-20即可,最后点击确定。(备注可随意)
创建字段3-发布时间
字段名称:get_time(注意:一定是下划线)
采集内容 选择“选区内可见文本”
数据类型 选择“字符串”
数据长度 选择 范围10-20即可,最后点击确定。(备注可随意)
创建字段4-正文
字段名称:content
采集内容 选择“选区内可见文本”
数据类型 选择“字符串”
注意,由于正文内容很多无法用字符串来估量,故这里选择“高级类型”-“长文本<64k”
表单配置字段自定义即可,如有多需求 可按上述同样操作即可。最终呈现如下图:
5. 关联数据表
表单配置完毕后,需要进行数据关联,操作如下:
选择所需的表单,点击【创建】按钮。
创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。
6. 模板预览
通过预览,可以了解配置是否能够正确地采集到所需正文数据。鼠标右键后选择【链接列表】,可以单独预览某个链接的数据。
链接预览
预览结果
7. 确认选区
操作如下图所示:
Step1:在左侧“东方财富”下属字段中点击“tittle”
Step2:找到标题(图中数字2所示)并ctrl+左键点击选中该选区
Step3:最后点击“确认选区”即可
Step1:在左侧“东方财富”下属字段中点击“author”
Step2:找到文章作者(图中数字2所示)并ctrl+左键点击选中该选区
Step3:最后点击“确认选区”即可
Step1:在左侧“东方财富”下属字段中点击“get_time”
Step2:找到文章作者(图中数字2所示)并ctrl+左键点击选中该选区
Step3:最后点击“确认选区”即可
Step1:在左侧“东方财富”下属字段中点击“content”
Step2:找到文章作者(图中数字2所示)并shift+左键点击选中该选区
Step3:最后点击“确认选区”即可
注意:主键无需确认选区,操作过程中要随时点击“保存”,养成良好习惯。
三. 采集数据
1. 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
2. 选择采集任务
操作如下图数字所示:
Step1:选择【数据采集】
Step2:在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
Step3:点击“连接数据库”选择“打开”,此步骤不可避免,因为采集需要和数据库进行关联。
注意:采集开始前,务必保证“装载记录”是空的。可点击图示进行删除:
3. 开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
4.数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
5.导出数据
点击【导出】按钮,选择导出文件格式后保存。
导出数据
导出数据
推荐阅读
-
前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址
-
前嗅ForeSpider脚本教程-频道脚本:脚本采集数据
-
前嗅ForeSpider采集教程:采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接
-
前嗅ForeSpider采集教程:采集安居客列表数据 大数据 安居客 数据采集 爬虫软件
-
前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取 数据采集 大数据 爬虫
-
前嗅ForeSpider采集教程:采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接
-
前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取 数据采集 大数据 爬虫
-
前嗅ForeSpider数据采集教程:采集东方财富网链接列表
-
前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
-
前嗅ForeSpider采集教学:通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集