爬取网页文本数据--Python

程序员文章站 2022-07-08 16:08:47

对网页中的文本数据进行爬取最近在研究爬虫相关的内容，作为记录方便使用是查阅。本文爬取的网址是长沙市统计局望城区2019年国民经济和社会发展统计公报step1: 导入需要用到的库包import requests #爬取网页的库from bs4 import BeautifulSoup #用于解析网页的库step2：设置headers，网址，爬取网页headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64)...

对网页中的文本数据进行爬取

最近在研究爬虫相关的内容，作为记录方便使用是查阅。
本文爬取的网址是长沙市统计局望城区2019年国民经济和社会发展统计公报
step1: 导入需要用到的库包

import requests  #爬取网页的库
from bs4 import BeautifulSoup #用于解析网页的库

step2：设置headers，网址，爬取网页

headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36",
    }  # 构造请求头
url = 'http://tjj.changsha.gov.cn/tjxx/tjsj/tjgb/202010/t20201016_9060722.html'
response = requests.request("GET", url, headers=headers) # 获取网页数据
response.encoding = response.apparent_encoding # 当获取的网页有乱码时加

此时得到的结果即为该网址所示：网页源文件
step3：对获取的结果进行解析，拿到文本结果

soup = BeautifulSoup(response.text, 'html.parser')
bf = soup.find('div', class_='view TRS_UEDITOR trs_paper_default trs_web')

部分结果展示如下：
爬取网页文本数据--Python
注：后续会把标题加上在补充上

本文地址：https://blog.csdn.net/xiaoxiaojie521/article/details/110919777

爬取网页文本数据--Python

对网页中的文本数据进行爬取

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

python爬取网页内容转换为PDF文件

亲手撸码，爬取手机号码归属地最新数据（201911）

Python使用Selenium爬取淘宝异步加载的数据方法

网易云歌单信息爬取及数据分析（python爬虫）

python爬取个性签名的方法

python如何爬取个性签名

Python实现爬取马云的微博功能示例

python linecache 处理固定格式文本数据的方法

Python爬取Coursera课程资源的详细过程

爬取网页文本数据--Python

对网页中的文本数据进行爬取

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

python爬取网页内容转换为PDF文件

亲手撸码，爬取 手机号码归属地最新数据（201911）

Python使用Selenium爬取淘宝异步加载的数据方法

网易云歌单信息爬取及数据分析（python爬虫）

python爬取个性签名的方法

python如何爬取个性签名

Python实现爬取马云的微博功能示例

python linecache 处理固定格式文本数据的方法

Python爬取Coursera课程资源的详细过程

亲手撸码，爬取手机号码归属地最新数据（201911）