欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python爬虫--urllib

程序员文章站 2022-05-03 20:41:57
...

urllib包含模块:

       -urllib.request:打开和读取urls

       -urllib.error:包含urllib.request产生的常见的错误,使用try捕捉

       -urllib.parse:包含即系url的方法,把一些数据进行编码

       -urllib.robotparse:解析robots.txt文件

from urllib import request

if __name__ == '__main__':
    url="http://www.baidu.com"
    #打开相应的url并把相应页面作为返回
    html = request.urlopen(url)
    #把返回结果读取出来并解码成字符串
    res = html.read().decode()
    print(res)

这就是最简单的一个使用urllib爬取百度源码的爬虫

 

现在我们可以利用request和parse模块来做一个简单的搜索引擎

"""
简单易懂的搜索引擎
"""
from urllib import parse,request

url = "http://www.baidu.com/s?"
wd = input("请输入关键字:")

#弄成一个字典
qs = {
    "wd":wd
}
#使用urllib模块里面的parse把输入的文字编码,加密,成为电脑认识的形式
qs = parse.urlencode(qs)
#打印你输入的文字的编码
print(qs)

flag = url + qs
#打印你最终搜索的url
print(flag)

rsp = request.urlopen(flag)
html = rsp.read().decode()

#输出源码
print(html)

首先我们先把输出的文字进行编码,然后再把url和编码后的格式相接,再使用request获取源码,这就是一个简单的利用百度搜索了。

相关标签: Python