c# 爬取优酷电影信息(2)
程序员文章站
2022-11-23 14:26:28
中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用htmlagilitypack库,对爬虫的爬取一共分为三步爬虫步骤 加载页面 解析数据 保存数据 继第一篇文档后的爬虫进阶,本文章主要是对...
中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用htmlagilitypack库,对爬虫的爬取一共分为三步
爬虫步骤
- 加载页面
- 解析数据
- 保存数据
继第一篇文档后的爬虫进阶,本文章主要是对上一篇的进阶。实现的功能主要为:
1、爬取电影类别列表
2、循环每个类别的电影信息,对每个类别的信息分页爬取
3、爬取的数据保存到数据库中
一、爬取电影类别列表
使用chrome浏览器,f12,找到当前位置,得到当前位置的xpath。我们需要的数据是电影的类别编码和电影类别名称。
规则分析:
xpath路径为 "//*[@id='filterpanel']/div/ul/li/a")
类别编码为a标签href路径的内容,我们对其进行截取
类别名称为a标签innertest,我们对其进行截取
代码示例
二、爬取每个类别的总分页数
code 为电影类别编码
页面规则 $""
根据页面规则进行爬取:
三、按照页码得到每个电影类别的内容
根据分页规则分析出分页后的地址为
code 为编码 pageindex为第几页
页面规则:http://list.youku.com/category/show/[code]s_1_d_1_p{pageindex}.html
根据页面规则进行爬取:
四、测试爬取的结果
代码下载地址:
以上就是c# 爬取优酷电影信息(2)的详细内容,更多关于c# 爬取优酷电影信息的资料请关注其它相关文章!