c# 爬取优酷电影信息(2)

程序员文章站 2022-11-23 14:26:28

中我们实现了对优酷单页面的爬取，简单进行回顾一下，使用htmlagilitypack库，对爬虫的爬取一共分为三步爬虫步骤加载页面解析数据保存数据继第一篇文档后的爬虫进阶，本文章主要是对...

中我们实现了对优酷单页面的爬取，简单进行回顾一下，使用htmlagilitypack库，对爬虫的爬取一共分为三步

爬虫步骤

继第一篇文档后的爬虫进阶，本文章主要是对上一篇的进阶。实现的功能主要为：
1、爬取电影类别列表
2、循环每个类别的电影信息，对每个类别的信息分页爬取
3、爬取的数据保存到数据库中

一、爬取电影类别列表

c# 爬取优酷电影信息(2)

使用chrome浏览器，f12，找到当前位置，得到当前位置的xpath。我们需要的数据是电影的类别编码和电影类别名称。

规则分析：
xpath路径为 "//*[@id='filterpanel']/div/ul/li/a")
类别编码为a标签href路径的内容，我们对其进行截取
类别名称为a标签innertest，我们对其进行截取

代码示例

code 为电影类别编码
页面规则 $""
根据页面规则进行爬取：

根据分页规则分析出分页后的地址为
code 为编码 pageindex为第几页
页面规则：http://list.youku.com/category/show/[code]s_1_d_1_p{pageindex}.html
根据页面规则进行爬取：

代码下载地址：

以上就是c# 爬取优酷电影信息(2)的详细内容，更多关于c# 爬取优酷电影信息的资料请关注其它相关文章！

相关标签： c# 爬虫优酷电影信息