【爬虫】Scrapy中Cookie设置的一些测试
程序员文章站
2022-05-12 09:21:44
...
00. 环境
- scrapy:2.3.0
- python:3.7
01. Scrapy中设置Cookie的几种方法
在scrapy中主要有以下几种设置cookie的方法,其中第一种和第三种可以直接使用网页中复制过来str
类型的cookie,第二种和第四种需要设置为dict
类型的cookie
1.1 利用seetings文件中的DEFAULT_REQUEST_HEADERS
设置cookie
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.9',
"sec-fetch-site": "none",
"sec-fetch-mode": "navigate",
"sec-fetch-dest": "document",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) "
"AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1",
"cookie": "123"
},
1.2 利用Spider中Request中的cookies
参数或者headers
参数设置cookie
# 利用cookies参数设置cookie
def start_requests(self):
yield scrapy.Request(url,dont_filter=True,cookies={"a": "b"})
1.3 利用Spider中Request中的headers
参数设置cookie
# 利用headers参数设置cookie
def start_requests(self):
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.9',
"sec-fetch-site": "none",
"sec-fetch-mode": "navigate",
"sec-fetch-dest": "document",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) "
"AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1",
"cookie": "123"
}
yield scrapy.Request(url,dont_filter=True,header=headers)
1.4 利用中间件DownloadMiddleware
中的设置cookie
def process_request:
request.cookies={"a": "b"}
02. 关于scrapy中设置是cookie的优先级
先放结论:1.3 >= 1.4 > 1.2 > 1.1。同时通过以上四种方法为request
添加cookie,根据settings中的COOKIES_ENABLED
(稍后会解释这个设置的用途)分为以下几种:
- settings中的
COOKIES_ENABLED = False
,则优先使用1.3设置的cookie - settings中的
COOKIES_ENABLED
被注释,则使用1.3的cookie+1.4的cookie的合并值 - settings中的
COOKIES_ENABLED = True
,则使用1.3的cookie+1.4的cookie的合并值
03. 关于COOKIES_ENABLED
设置的测试说明
3.1 settings中注释 COOKIES_ENABLED
(1)如果同时设置四处cookie,则优先使用1.3+1.4的合并值
(2)如果设置三处cookie(1.1/1.2/1.4),则优先使用1.1 + 1.4的合并值
(3)如果设置两处cookie(1.2/1.4), 则优先使用该1.4的值
(4)如果设置一处cookie(1.2), 则优先使用该1.2的值
3.2 settings中设置 COOKIES_ENABLED = False
(1)如果同时设置四处cookie,则优先使用1.3的值
(2)如果设置三处cookie(1.1/1.2/1.4),则优先使用1.1的值
(3)如果设置两处cookie(1.2/1.4), 不会使用cookie
(4)如果设置一处cookie(1.2), 不会使用cookie
3.3 settings中设置 COOKIES_ENABLED = True
(1)如果同时设置四处cookie,则优先使用1.3+1.4的合并值
(2)如果设置三处cookie(1.1/1.2/1.4),则优先使用1.1 + 1.4的合并值
(3)如果设置两处cookie(1.2/1.4), 则优先使用该1.4的值
(4)如果设置一处cookie(1.2), 则优先使用该1.2的值