python爬虫学习-利用urllib进行简单的网页抓取

程序员文章站 2022-05-04 11:42:30

...

1.urllib.request模块是用来打开和读取URLs的；

2.urllib.error模块包含一些有urllib.request产生的错误，可以使用try进行捕捉处理；

3.urllib.parse模块包含了一些解析URLs的方法；

4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

url='http://www.lejiatuangou.com/'
response=request.urlopen(url)
html=response.read()
print(html)

内容抓到了，怎么看都别扭

python爬虫学习-利用urllib进行简单的网页抓取

'''给网页加个编码'''
from urllib import request
url='http://www.lejiatuangou.com/'
response=request.urlopen(url)
html=response.read()
html=html.decode('utf=8')
print(html)

python爬虫学习-利用urllib进行简单的网页抓取

终于正常了

上一篇： python3爬取指定百度贴吧页面并保存成本地文档（批量爬取贴吧页面数据）

下一篇： Python3网络爬虫：利用urllib进行简单的网页抓取（一）

python爬虫学习-利用urllib进行简单的网页抓取

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

鱼c笔记——Python爬虫（一）：利用urllib进行简单的网页抓取

python爬虫学习-利用urllib进行简单的网页抓取

Python3网络爬虫：利用urllib进行简单的网页抓取（一）

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

Python爬虫: 用urllib2写的抓取网页内容的简单示例

Python爬虫: 用urllib2+beautifulsoup写的抓取网页内容的示例

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容