前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取 数据采集 大数据 爬虫
程序员文章站
2022-04-02 11:46:19
...
以孔夫子旧书网(http://www.kongfz.com/1004/)为例:
一.网站结构
1.网站截图说明
该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取。
网站列表页
2. 采集结果截图
采集数据结果
二. 配置模板
- 新建任务
新建任务
点击【下一步】,需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】,如图:
新建采集任务
2.创建/选择表单
①创建表单
创建表单
②配置表单
根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例:
配置表单
③数据抽取链接关联表单
选择刚才新创建的表单"孔夫子"
关联表单
3.字段定位
取值方法:由于此处活取的是列表页的数据,所以可以应用“识别列表”功能,直接取到列表数据,操作方法如下:
①点击“数据抽取-孔夫子”,按住ctrl+鼠标左键点击定位标题内容
定位标题
②按住Shift+鼠标左键继续点击,直到点击到选中整个第一条数据
定位第一条数据
③在软件的右下角可以看到“识别列表”按钮 ,此时点击“识别列表”,如下图,此时列表中的内容都已经选中。
定位全数据
④对每个字段进行取值,方法依然是:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。如:price字段,见下图:
字段定位
4.模板预览
鼠标右键点击“孔夫子”,然后点击“模板预览”
模板预览
5.过滤翻页链接
勾选标题过滤,过滤规则选择包含,填入"下一页"
过滤翻页
三.数据采集
1.连接数据库
连接数据库
2.创建数据表
创建数据表
3.选中数据表
关联数据表
4.开始采集
开始采集
5.采集结果
采集结果
推荐阅读
-
前嗅ForeSpider采集教程:采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接
-
前嗅ForeSpider采集教程:采集安居客列表数据 大数据 安居客 数据采集 爬虫软件
-
前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取 数据采集 大数据 爬虫
-
前嗅ForeSpider采集教程:采集【链接列表】的数据 大数据 爬虫 数据采集 采集链接
-
前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取 数据采集 大数据 爬虫
-
前嗅ForeSpider数据采集教程:采集东方财富网链接列表
-
前嗅ForeSpider采集教学:通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集
-
前嗅ForeSpider采集教学:通过关键词采集【检索结果】 大数据 采集教程 forespider 前嗅 古诗词采集
-
前嗅ForeSpider数据采集教程:采集东方财富网链接列表
-
前嗅ForeSpider采集教程:采集安居客列表数据 大数据 安居客 数据采集 爬虫软件