Python爬虫--urllib

程序员文章站 2022-05-03 20:41:57

...

urllib包含模块：

-urllib.request：打开和读取urls

-urllib.error：包含urllib.request产生的常见的错误，使用try捕捉

-urllib.parse：包含即系url的方法，把一些数据进行编码

-urllib.robotparse：解析robots.txt文件

from urllib import request

if __name__ == '__main__':
    url="http://www.baidu.com"
    #打开相应的url并把相应页面作为返回
    html = request.urlopen(url)
    #把返回结果读取出来并解码成字符串
    res = html.read().decode()
    print(res)

这就是最简单的一个使用urllib爬取百度源码的爬虫

现在我们可以利用request和parse模块来做一个简单的搜索引擎

"""
简单易懂的搜索引擎
"""
from urllib import parse,request

url = "http://www.baidu.com/s?"
wd = input("请输入关键字:")

#弄成一个字典
qs = {
    "wd":wd
}
#使用urllib模块里面的parse把输入的文字编码，加密，成为电脑认识的形式
qs = parse.urlencode(qs)
#打印你输入的文字的编码
print(qs)

flag = url + qs
#打印你最终搜索的url
print(flag)

rsp = request.urlopen(flag)
html = rsp.read().decode()

#输出源码
print(html)

首先我们先把输出的文字进行编码，然后再把url和编码后的格式相接，再使用request获取源码，这就是一个简单的利用百度搜索了。

Python爬虫--urllib

Python实现按照指定要求逆序输出一个数字

python实现数组插入新元素的方法

Windows下用py2exe将Python程序打包成exe程序的教程

python执行系统命令后获取返回值的几种方式集合

在服务器端实现无间断部署Python应用的教程

Python利用openpyxl库遍历Sheet的实例

c++生成dll使用python调用dll的方法

python实现简单淘宝秒杀功能

举例说明python3 set方法功能

用Python解决女朋友看电影没字幕的需求