python爬虫（1）

程序员文章站 2022-04-26 08:09:30

...

python爬虫（1）

一、需要的包
二、爬取网页
三、解析网页
四、保存

Python爬取网页内容原理：模拟用户在发起一次请求，保存html文件，从文件中获取想要的内容。
流程如下：

一、需要的包

from bs4 import BeautifulSoup
import requests
import csv

二、爬取网页

首先确定爬取网页，然后设置请求头header，那么如何设置呢？请往下看
打开任意浏览器->F12->点开Network->F5->Header处找到request headers，这个就是浏览器的请求报头了。
python爬虫（1）

from bs4 import BeautifulSoup
import requests
from requests.exceptions import RequestException

def getHtml(url):
    try:
        response = requests.get(url, headers='Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
)
        if response.status_code == 200:
            return response.text
    except RequestException:
        print('===request exception===')
        return None

三、解析网页

此时我们已经抓取到一个response，接下来我们需要对response进行解析

#使用BeautifulSoup函数
soup = BeautifulSoup(html, 'lxml')

转成如下形式：
python爬虫（1）
此时我们可以使用soup.find()、soup.findAll()进行查找需要的文本
可以在网页中快速找到文本所在的模块，即F12->Elements，选中模块即在网页上标记出来，如下图所示

#先使用soup.find(),找到dealTitle下的模块
m_dealTitle=soup.find("div",id="dealTitle")
#接着使用findAll筛选出所有<h1>...</h1>中...的内容
deal_title = m_dealTitle.findAll('h1')[0].contents[0].strip().strip('\n').replace(',', '')

四、保存

import csv
def save2csv(content):
    with open('my_content.csv', 'a+', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(content)

上一篇：用Android studio设计类似微信起始页面

下一篇：使用Python爬取QQ好友的说说

python爬虫（1）

python爬虫（1）

一、需要的包

二、爬取网页

三、解析网页

四、保存

代数测验生成评估软件(InfiniteAlgebra1)特别版激活教程

Oracle学习笔记1—SELECT查询

python中处理json中遇到的错误

迅雷会员感恩季活动只要支付1元即可100%获得1年响巢迅雷看看vip(秒到)

浅谈Python数据类型之间的转换

问题记录（1）opencv配置测试

python嵌套

数据结构---带头结点的双向链表的增删查改1（C语言实现）

3月1日发 iQOO新机正面照曝光：采用水滴屏形态

线性表应用：多项式的加法，乘法，微分运算（1）

python爬虫（1）

python爬虫（1）

一、需要的包

二、爬取网页

三、解析网页

四、保存

代数测验生成评估软件(InfiniteAlgebra1)特别版激活教程

Oracle学习笔记1—SELECT查询

python中处理json中遇到的错误

迅雷会员感恩季活动 只要支付1元即可100%获得1年响巢迅雷看看vip(秒到)

浅谈Python数据类型之间的转换

问题记录（1）opencv配置测试

python嵌套

数据结构---带头结点的双向链表的增删查改1（C语言实现）

3月1日发 iQOO新机正面照曝光：采用水滴屏形态

线性表应用：多项式的加法，乘法，微分运算（1）

迅雷会员感恩季活动只要支付1元即可100%获得1年响巢迅雷看看vip(秒到)