欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

c# 爬取优酷电影信息(2)

程序员文章站 2022-11-23 14:26:28
中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用htmlagilitypack库,对爬虫的爬取一共分为三步爬虫步骤 加载页面 解析数据 保存数据 继第一篇文档后的爬虫进阶,本文章主要是对...

中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用htmlagilitypack库,对爬虫的爬取一共分为三步

爬虫步骤

  • 加载页面
  • 解析数据
  • 保存数据

继第一篇文档后的爬虫进阶,本文章主要是对上一篇的进阶。实现的功能主要为:
1、爬取电影类别列表
2、循环每个类别的电影信息,对每个类别的信息分页爬取
3、爬取的数据保存到数据库中

一、爬取电影类别列表

c# 爬取优酷电影信息(2)

使用chrome浏览器,f12,找到当前位置,得到当前位置的xpath。我们需要的数据是电影的类别编码和电影类别名称。

规则分析:
xpath路径为 "//*[@id='filterpanel']/div/ul/li/a")
类别编码为a标签href路径的内容,我们对其进行截取
类别名称为a标签innertest,我们对其进行截取

代码示例

二、爬取每个类别的总分页数

code 为电影类别编码
页面规则 $""
根据页面规则进行爬取:

三、按照页码得到每个电影类别的内容

根据分页规则分析出分页后的地址为
code 为编码 pageindex为第几页
页面规则:http://list.youku.com/category/show/[code]s_1_d_1_p{pageindex}.html
根据页面规则进行爬取:

四、测试爬取的结果

代码下载地址:

https://github.com/happlyfox/foxcrawler/tree/master/%e5%ad%a6%e4%b9%a0%e7%a4%ba%e4%be%8b/youkucrawler/youkucrawlerasync

以上就是c# 爬取优酷电影信息(2)的详细内容,更多关于c# 爬取优酷电影信息的资料请关注其它相关文章!