欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫day02

程序员文章站 2022-05-03 18:06:00
...

主要用到requests模块,因为这个模块更为简洁、高效。还有一个网络请求模块urllib模块,这个相对来说比较古老、麻烦和复杂。

requests模块:

Python中原生的一款基于网络请求的模块,功能非常强大,使用起来便捷、效率高。

作用:

模拟浏览器发送请求。

如何使用requests模块?

环境安装:

1.可以打开终端:windows+r键,输入cmd打开终端,pip install requests

2.在开发工具PyCharm中的解释器中搜索下载

步骤:

1.制定URL

2.基于requests模块发起请求

3.获取响应对象中的数据值

4.持久化存储

代码:

指定需求:获取百度首页数据

import requests
if __name__=="__main__":
    #1.指定url
    url = "https://www.baidu.com/index.php?tn=monline_3_dg"
    #2.发起请求,get方法会返回一个响应数据
    response = requests.get(url)
    #3.获取响应对象中的数据值,text返回的是字符串式的响应数据
    page_text = response.text
    #在控制台打印出收到的响应数据
    print(page_text)
    #4.持久化存储到本地
    with open("baidu.html","w",encoding="utf-8") as fw:
        fw.write(page_text)
    print("获取数据完毕!")