Scrapy 中 Request 对象和 Response 对象的各参数及属性介绍

程序员文章站 2023-03-31 22:56:51

Request 对象 Request构造器方法的参数列表： Request(url [, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf 8', priority= ......

request 对象

request构造器方法的参数列表：
- request(url [, callback=none, method='get', headers=none, body=none,cookies=none, meta=none, encoding='utf-8', priority=0,dont_filter=false, errback=none, flags=none])
各参数说明：
- url（必选）
  - 请求页面的url地址，bytes或str类型。
- callback
  - 页面解析函数，callback类型，request请求对象的页面下载完成后，由该参数指定的页面解析函数解析页面，如果未传递该参数，默认调用spider的parse方法。
- method
  - http请求的方法，默认为‘get’。
- headers
  - http请求的头部字典，dict 类型。
- body
  - http请求的正文，bytes 或 str类型。
- cookies
  - cookie信息字典，dict 类型。
- meta
  - request 的元数据字典，dict 类型，用于给框架中其他组件传递信息，比如中间件 item pipeline。其他组件可以使用request 对象的 meta 属性访问该元数据字典 (request.meta), 也用于给响应处理函数传递信息。
- encoding
  - url 和 body 参数的编码默认为'utf-8'。如果传入的url或body参数是str 类型，就使用该参数进行编码。
- priority
  - 请求的优先级，默认值为0，优先级高的请求优先下载。
- dont_filter
  - 默认情况下（dont_filter=false）,对同一个url地址多次提交下载请求，后面的请求会被去重过滤器过滤（避免重复下载）。如果将该参数置为true，可以使请求避免被过滤，强制下载。例如：在多次爬取一个内容随时间而变化的页面时（每次使用相同的url），可以将该参数设置为true。
- errback
  - 请求出现异常或出现http错误时（如404页面不存在）的回调函数。

response 对象

概念：
- response 对象用来描述一个http响应，response只是一个基类，根据响应内容的不同有如下子类：
  - textresponse
  - htmlresponse
  - xmlresponse
- 当一个页面下载完成时，下载器依据http响应头部中的content-type信息创建某个response的子类对象。通常一般是htmlresponse子类。
htmlresponse 对象的属性及方法：
- url
  - http 响应的url地址，str 类型。
- status
  - http 响应的状态码，int 类型。
- headers
  - http 响应的头部，dict 类型。可以调用get或getlist方法对其进行访问。
- body
  - http 响应正文，bytes 类型。
- text
  - 文本形式的http响应正文，str 类型，它是由 response.body 使用 response.encoding 解码得到的。
    - response.text = response.body.decode(response.encoding)
- encoding
  - http 响应正文的编码，它的值可能是从http响应头部或正文中解析出来的。
- request
  - 产生该http 响应的request对象。
- meta
  - 即 response.request.meta, 在构造 request对象时，可将要传递给响应处理函数的信息通过meta参数传入；响应处理函数处理响应时，通过response.meta 将信息取出。
- selector
  - selector 对象用于在response 中提取数据。
- xpath(query)
  - 使用xpath选择器在response中提取数据；它是 response.selector.xpath 方法的快捷方式。
- css(query)
  - 使用 css选择器在response中提取数据；它是 response.selector.css方法的快捷方式。
- urljoin (url)
  - 用于构造绝对 url 。当传入的url参数是一个相对地址时，根据response.url 计算出相应的绝对 url。

上一篇：元朝皇帝能说汉语吗？元朝的灭亡于汉化的关系

下一篇：双十一入手的鱼竿终于到了

Scrapy 中 Request 对象和 Response 对象的各参数及属性介绍

request 对象

response 对象

JSP内置对象:Request和Response的简单介绍及使用

Scrapy 中 Request 对象和 Response 对象的各参数及属性介绍

python入门之scrapy框架中Request对象和Response对象的介绍

Scrapy 中 Request 对象和 Response 对象的各参数及属性介绍

python入门之scrapy框架中Request对象和Response对象的介绍