Python网络爬虫（一）

程序员文章站 2022-03-02 22:44:56

...

Python第三方库Request库（优点：简洁）

安装方法：cmd命令 pip install requests

Request库的7个主要方法

1、requests.request()

2、requests.get()

3、requests.head()

4、requests.post()

5、requests.put()

6、requests.patch()

7、requests.delete()

常用，获取HTML网页的主要方法

获取HTML网页头部信息的方法

向HTML网页提交Post请求的方法

向HTML网页提交Put请求的方法

向HTML网页提交局部修改请求的方法（优点：节省网络带宽）

r=requests.get(url，params，kwargs)

url：获取页面的url连接； param：url中的额外参数（可选）； kwargs控制访问参数；

r.status_code

r.text

r.encoding

r.apparent_encoding

r.content

HTTP请求返回状态，200表示成功

返回url对应的页面内容

（备选编码方式）

HTTP响应内容的二进制形式，一般用来还原图片信息

#爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()  #如果状态不是200，引发httperror异常
        r.encoding=r.apparent_encoding
        return r.text    #返回url爬取内容
    except:
        return "error"   #返回错误

URL格式：http://host [: port ] [ path ]host：主机域名或者IP地址； port：端口号； path：请求资源路径；

Request库主要方法解析：

requests.request(method，url，kwargs) method：请求方式（7种）； url：页面url链接； kwargs：控制访问参数；

7种请求方式：get，head，post，put，patch，delete，options（前5种常用）

上一篇： python网络爬虫

下一篇： Python网络爬虫

Python网络爬虫（一）

python、java等哪一门编程语言适合人工智能？

用Python爬取了拉勾网的招聘信息+详细教程+趣味学习+快速爬虫入门+学习交流+大神+爬虫入门

给Python初学者的一些编程技巧

神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库

Java转python第一天

开源实现将为我淘得第一桶金。制造网络应用项目管理

Python高级爬虫开发，高难度JS解密教程，绝地求生模拟登陆！

5行Python代码实现一键批量扣图

python或php程序员面试要税后12K,技术能力要到什么程度？考问他问题一般要怎么考问，如果10个问题的话。

一个基于python之外星人入侵小游戏

Python网络爬虫（一）

python、java等哪一门编程语言适合人工智能？

用Python爬取了拉勾网的招聘信息+详细教程+趣味学习+快速爬虫入门+学习交流+大神+爬虫入门

给Python初学者的一些编程技巧

神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库

Java转python第一天

开源实现将为我淘得第一桶金。 制造网络应用项目管理

Python高级爬虫开发，高难度JS解密教程，绝地求生模拟登陆！

5行Python代码实现一键批量扣图

python或php程序员面试要税后12K,技术能力要到什么程度？考问他问题一般要怎么考问，如果10个问题的话。

一个基于python之外星人入侵小游戏

开源实现将为我淘得第一桶金。制造网络应用项目管理