c# 爬取优酷电影信息(1)

程序员文章站 2022-05-10 23:21:23

爬虫的制作主要分为三个方面1、加载网页结构2、解析网页结构，转变为符合需求的数据实体3、保存数据实体（数据库，文本等）在实际的编码过程中，找到了一个好的类库“htmlagilitypack”。介绍：官...

爬虫的制作主要分为三个方面
1、加载网页结构
2、解析网页结构，转变为符合需求的数据实体
3、保存数据实体（数据库，文本等）

在实际的编码过程中，找到了一个好的类库“htmlagilitypack”。
介绍：
官网：
html agility pack源码中的类大概有28个左右，其实不算一个很复杂的类库，但它的功能确不弱，为解析dom已经提供了足够强大的功能支持，可以跟jquery操作dom媲美)
使用说明：
html agility pack（xpath 定位）,在实际使用过程中，发现有部分内容如果通过css进行定位会比xpath更加方便，所以通过查找找到了另外一个css的解析了类库 scrapysharp（css 定位）

整理：
nuget包需要引用的库
1、html agility pack（xpath 定位）
2、scrapysharp（css 定位）

代码下载地址：

https://github.com/happlyfox/foxcrawler

第一点——加载网页结构

html agility pack封装了加载内容的方法，使doc.load(arguments),具有多种重载方式，以下列举官网的三个实例

第二点——解析网页结构，转变为符合需求的数据实体

第三点——保存数据实体，转变为符合需求的数据实体

第四点——main

以上就是c# 爬取优酷电影信息(1)的详细内容，更多关于c# 爬取优酷电影信息的资料请关注其它相关文章！

相关标签： c# 爬虫优酷电影信息

上一篇：蔡襄在任福建转运使时，对北苑御园茶的发展有何功绩？

下一篇： redis队列缓存 + mysql 批量入库 + php离线整合

c# 爬取优酷电影信息(1)

第一点——加载网页结构

第二点——解析网页结构，转变为符合需求的数据实体

第三点——保存数据实体，转变为符合需求的数据实体

第四点——main

c# 爬取优酷电影信息(2)