欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python: 网络爬虫 -2

程序员文章站 2022-05-04 11:28:12
...

原文来自FishC

1) urlopen()方法中有一个可选参数timeout,用于设置连接的超时时间,单位秒;

2)如何从urlopen()的返回对象中获取http状态码:

resp=urllib.request.urlopen(url)
code=response.getcode()

3)在客户端和服务器之间进行请求-响应时,常用GET,POST;

4)User-Agent属性记录的是:提供用户所使用的浏览器类型,操作系统,浏览器内核等信息标识;

5)URLopen()函数有一个data参数,如果给这个参数赋值,那么http的请求就是使用POST方式,如果data值为NULL,也就是使用默认值,那么HTTP的请求就是使用GET方式;

6)编码转换:字符串的decode方法是将其它编码的字符串转换成unicode编码,相反,encode方法是将unicode编码转换成其它编码的字符串;

7)JSON:轻量级的数据交换格式,就是用字符串把python的数据结构封装起来,便于存储和使用;




相关标签: python

上一篇: 网络爬虫2

下一篇: Java爬虫小程序