Urllib库爬取网页

程序员文章站 2022-05-03 21:41:14

...

1、urllib.request.urlopen

用于爬取网页：

file = urllib.request.urlopen("https://www.baidu.com")

注意：1、文件的读取：

1.按行读取方式readline()

readline()每次读取文件中的一行，需要使用永真表达式循环读取文件。但当文件指针移动到文件的末尾时，依然使用readline() 读取文件将出现错误。因此程序中需要添加1个判断语句，判断文件指针是否移动到文件的尾部，并且通过该语句中断循环。

2.多行读取方式readlines()

使用readlines()读取文件，需要通过循环访问readlines()返回列表中的元素。函数readlines()可一次性读取文件中多行数据。

3.一次性读取方式read()读取文件最简单的方法是使用read()，read()将从文件中一次性读出所有内容，并赋值给1个字符串变量。

2、文件的写入保存：

1、python基本文件操作：write：

fhandle = open("D:/1.html","wb")
fhandle.write(data)
fhandle.close()

filename = urllib.request.urlretrieve("https://www.baidu.com" , filename = "D:/1.html")

3、urllib.request.urlcleanup():

加在上述的代码后，用于清除urlretrieve造成的缓存垃圾。