python cookie反爬处理的实现

程序员文章站 2022-07-02 11:21:36

cookies的处理作用保存客户端的相关状态在爬虫中如果遇到了cookie的反爬如何处理?手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长...

cookies的处理

作用
保存客户端的相关状态

在爬虫中如果遇到了cookie的反爬如何处理?

手动处理
在抓包工具中捕获cookie,将其封装在headers中
应用场景:cookie没有有效时长且不是动态变化

自动处理
使用session机制
使用场景:动态变化的cookie
session对象:该对象和requests模块用法几乎一致.如果在请求的过程中产生了cookie,如果该请求使用session发起的,则cookie会被自动存储到session中.

案例

爬取雪球网中的新闻资讯数据:https://xueqiu.com/

#获取一个session对象
import requests
headers = {
  'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/75.0.3770.100 safari/537.36'
}
session = requests.session()
main_url = 'https://xueqiu.com' #推测对该url发起请求会产生cookie
session.get(main_url,headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json'
params = {
  'since_id': '-1',
  'max_id': '20346152',
  'count': '15',
  'category': '-1',
}
page_text = session.get(url,headers=headers,params=params).json()
page_text

到此这篇关于python cookie反爬处理的实现的文章就介绍到这了,更多相关python cookie反爬内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

python cookie反爬处理的实现

Python实现爬取逐浪小说的方法

Python实现的爬取百度文库功能示例

python爬取本站电子书信息并入库的实现代码

python实现爬取千万淘宝商品的方法

Python3中常用的处理时间和实现定时任务的方法的介绍

Python图像处理实现两幅图像合成一幅图像的方法【测试可用】

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python实现每次处理一个字符的三种方法

Python实现的爬取小说爬虫功能示例

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）