Urllib库爬取网页
程序员文章站
2022-05-03 21:41:14
...
1、urllib.request.urlopen
用于爬取网页:
file = urllib.request.urlopen("https://www.baidu.com")
注意:1、文件的读取:
1.按行读取方式readline()
readline()每次读取文件中的一行,需要使用永真表达式循环读取文件。但当文件指针移动到文件的末尾时,依然使用readline() 读 取 文 件 将 出 现 错 误。 因 此程序中需要添加1个判断语句,判断文件指针是否移动到文件的尾部,并且通过该语句中断循环。
2.多行读取方式readlines()
使用readlines()读取文件,需要通过循环访问readlines()返回列表中的元素。函数readlines()可一次性读取文件中多行数据。
3.一次性读取方式read()读取文件最简单的方法是使用read(),read()将从文件中一次性读出所有内容,并赋值给1个字符串变量。
2、文件的写入保存:
1、python基本文件操作:write:
fhandle = open("D:/1.html","wb")
fhandle.write(data)
fhandle.close()
2、urllib.request.urlretrieve(url , filename = 本地文件地址)
filename = urllib.request.urlretrieve("https://www.baidu.com" , filename = "D:/1.html")
3、urllib.request.urlcleanup():
加在上述的代码后,用于清除urlretrieve造成的缓存垃圾。