欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

python构建基础的爬虫教学

程序员文章站 2022-06-28 19:43:04
爬虫具有域名切换、信息收集以及信息存储功能。 这里讲述如何构建基础的爬虫架构。 1、urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函...

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取html文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位html标签格式化和组织复杂的网络信息,用python对象展现xml结构信息。不是标准库,可用pip安装。常用的对象是beautifulsoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用beautifulsoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

beautifulsoup可提取html、xml文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现httperror,可使用try语句进行处理。

当程序返回httperror错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回none.

可使用判断语句进行检测。

调用的标签不存在会出现none,调用不存在的标签下的子标签,就会出现attributeerror错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对的支持。