Python网络爬虫(一)
程序员文章站
2022-03-02 22:44:56
...
Python第三方库Request库(优点:简洁)
安装方法:cmd命令 pip install requests
Request库的7个主要方法
1、requests.request() |
2、requests.get() |
3、requests.head() |
4、requests.post() |
5、requests.put() |
6、requests.patch() |
7、requests.delete() |
常用,获取HTML网页的主要方法
获取HTML网页头部信息的方法
向HTML网页提交Post请求的方法
向HTML网页提交Put请求的方法
向HTML网页提交局部修改请求的方法(优点:节省网络带宽)
r=requests.get(url,params,kwargs)
url:获取页面的url连接; param:url中的额外参数(可选); kwargs控制访问参数;
r.status_code |
r.text |
r.encoding |
r.apparent_encoding |
r.content |
HTTP请求返回状态,200表示成功
返回url对应的页面内容
(备选编码方式)
HTTP响应内容的二进制形式,一般用来还原图片信息
#爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status() #如果状态不是200,引发httperror异常
r.encoding=r.apparent_encoding
return r.text #返回url爬取内容
except:
return "error" #返回错误
URL格式:http://host [: port ] [ path ]host:主机域名或者IP地址; port:端口号; path:请求资源路径;
Request库主要方法解析 :
requests.request(method,url,kwargs) method:请求方式(7种); url:页面url链接; kwargs:控制访问参数;
7种请求方式:get,head,post,put,patch,delete,options(前5种常用)
上一篇: python网络爬虫
下一篇: Python网络爬虫
推荐阅读
-
python、java等哪一门编程语言适合人工智能?
-
用Python爬取了拉勾网的招聘信息+详细教程+趣味学习+快速爬虫入门+学习交流+大神+爬虫入门
-
给Python初学者的一些编程技巧
-
神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库
-
Java转python第一天
-
开源实现将为我淘得第一桶金。 制造网络应用项目管理
-
Python高级爬虫开发,高难度JS解密教程,绝地求生模拟登陆!
-
5行Python代码实现一键批量扣图
-
python或php程序员面试要税后12K,技术能力要到什么程度?考问他问题一般要怎么考问,如果10个问题的话。
-
一个基于python之外星人入侵小游戏