欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python网络爬虫(一)

程序员文章站 2022-03-02 22:44:56
...

Python第三方库Request库(优点:简洁)

安装方法:cmd命令  pip install requests

Request库的7个主要方法

1、requests.request()
2、requests.get()
3、requests.head()
4、requests.post()
5、requests.put()
6、requests.patch()
7、requests.delete()

 

常用,获取HTML网页的主要方法

获取HTML网页头部信息的方法

向HTML网页提交Post请求的方法

向HTML网页提交Put请求的方法

向HTML网页提交局部修改请求的方法(优点:节省网络带宽)

 

r=requests.get(url,params,kwargs) 

url:获取页面的url连接;      param:url中的额外参数(可选);      kwargs控制访问参数;

r.status_code
r.text
r.encoding
r.apparent_encoding
r.content

HTTP请求返回状态,200表示成功

返回url对应的页面内容

 

(备选编码方式)

HTTP响应内容的二进制形式,一般用来还原图片信息

#爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()  #如果状态不是200,引发httperror异常
        r.encoding=r.apparent_encoding
        return r.text    #返回url爬取内容
    except:
        return "error"   #返回错误

URL格式:http://host [: port ] [ path ]host:主机域名或者IP地址;      port:端口号;      path:请求资源路径;

Request库主要方法解析 :

requests.request(method,url,kwargs)       method:请求方式(7种);     url:页面url链接;     kwargs:控制访问参数;

7种请求方式:get,head,post,put,patch,delete,options(前5种常用)