欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫学习-利用urllib进行简单的网页抓取

程序员文章站 2022-05-04 11:42:30
...

1.urllib.request模块是用来打开和读取URLs的;

2.urllib.error模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理;

3.urllib.parse模块包含了一些解析URLs的方法;

4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

url='http://www.lejiatuangou.com/'
response=request.urlopen(url)
html=response.read()
print(html)

内容抓到了,怎么看都别扭

python爬虫学习-利用urllib进行简单的网页抓取

'''给网页加个编码'''
from urllib import request
url='http://www.lejiatuangou.com/'
response=request.urlopen(url)
html=response.read()
html=html.decode('utf=8')
print(html)

python爬虫学习-利用urllib进行简单的网页抓取

终于正常了