Python爬虫--urllib
程序员文章站
2022-05-03 20:41:57
...
urllib包含模块:
-urllib.request:打开和读取urls
-urllib.error:包含urllib.request产生的常见的错误,使用try捕捉
-urllib.parse:包含即系url的方法,把一些数据进行编码
-urllib.robotparse:解析robots.txt文件
from urllib import request
if __name__ == '__main__':
url="http://www.baidu.com"
#打开相应的url并把相应页面作为返回
html = request.urlopen(url)
#把返回结果读取出来并解码成字符串
res = html.read().decode()
print(res)
这就是最简单的一个使用urllib爬取百度源码的爬虫
现在我们可以利用request和parse模块来做一个简单的搜索引擎
"""
简单易懂的搜索引擎
"""
from urllib import parse,request
url = "http://www.baidu.com/s?"
wd = input("请输入关键字:")
#弄成一个字典
qs = {
"wd":wd
}
#使用urllib模块里面的parse把输入的文字编码,加密,成为电脑认识的形式
qs = parse.urlencode(qs)
#打印你输入的文字的编码
print(qs)
flag = url + qs
#打印你最终搜索的url
print(flag)
rsp = request.urlopen(flag)
html = rsp.read().decode()
#输出源码
print(html)
首先我们先把输出的文字进行编码,然后再把url和编码后的格式相接,再使用request获取源码,这就是一个简单的利用百度搜索了。
上一篇: VS调试技巧
下一篇: button按钮居中的方法