欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python requests 网页采集器实例

程序员文章站 2022-07-08 17:21:37
需求:模拟搜狗网页上输入关键字,所查询到的信息。知识点:UA:User-Agent(请求载体的身份标识)UA检测:门户网站的服务器会检测对应请求的载体身份标识,若检测到请求的载体身份标识为某一款浏览器,则该请求是一个正常的请求。但是,若检测到UA不是基于某一款浏览器的,则认为该请求为不正常的请求,为爬虫操作,该服务器端就很有可能拒绝本次请求。UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。使用搜狗搜索“波晓张”,获得网址:https://www.sogou.com/web.....


requests实战——简易网页采集器


1. 需求

模拟搜狗网页上输入关键字,所查询到的信息。

2. 知识点

UA:User-Agent(请求载体的身份标识)

**UA检测**:门户网站的服务器会检测对应请求的载体身份标识,若检测到请求的载体身份标识为某一款浏览器,则该请求是一个正常的请求。但是,若检测到UA不是基于某一款浏览器的,则认为该请求为不正常的请求,为爬虫操作,该服务器端就很有可能拒绝本次请求。

**UA伪装**:让爬虫对应的请求载体身份标识伪装成某一款浏览器。 

使用搜狗搜索“波晓张”,获得网址:
https://www.sogou.com/web?query=波晓张

注:保留该字段即可,后面的&_ast…可删除。

Python requests 网页采集器实例

使用浏览器自带的网络抓包工具,获取到User-Agent,之后便用该请求载体身份标识进行爬虫。

3. 代码

import requests if __name__ == "__main__": #UA伪装:将对应的User-Agent封装到一个字典中
    headers = { 'User-Agent':'Mozilla/.........'#填写自己浏览器上所对应的标识号 } url = 'https://www.sogou.com/web' # 处理url携带的桉树:封装到字典中
    kw = input('enter a word:') param = { 'query':kw } # 对指定的url发起的请求所对应的url是携带参数的,并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers) page_text = response.text
    fileName = kw + '.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功!!!') 

4.实现效果

运行结果:
Python requests 网页采集器实例
Python requests 网页采集器实例

本文地址:https://blog.csdn.net/qq_41094332/article/details/108242224