python简单爬虫--get方式详解

程序员文章站 2022-03-19 09:13:09

目录简单爬虫可以划分为get、post格式。其中，get是单方面的获取资源，而post存在交互，如翻译中需要文字输入。本文主要描述简单的get爬虫。环境准备安装第三方库pip install requ...

环境准备

安装第三方库

pip install requests
pip install bs4
pip install lxml

进行爬虫

1.获取网页数据。

import requests
from bs4 import beautifulsoup
url = "https://cn.bing.com/search?q=爬虫csdn&qs=n&form=qbre&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0b13b88d8f444a0182a4a6c36e463179/"
response = requests.get(self.url)

2.解析网页数据

soup = beautifulsoup(response.text, 'lxml')

3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式，后查看目标在html中的位置，右击选择“复制selector”，见下图。

python简单爬虫--get方式详解

key = "#b_results > li > div.b_title > h2 > a"
soup.select(key)

4.清洗数据

result = {}
for i, item in enumerate(data):
     result.update({
         f'title_{i}': item.get_text(),
         f'url_{i}': item.get('href')
     })
 print(result)

参考

链接:

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注的更多内容！

python简单爬虫--get方式详解

目录

环境准备

进行爬虫

参考

总结

python dict.get()和dict['key']的区别详解

对Python中创建进程的两种方式以及进程池详解

JavaScript模块管理的简单实现方式详解

详解Python中open()函数指定文件打开方式的用法

Python设计模式之简单工厂模式实例详解

python基于mysql实现的简单队列以及跨进程锁实例详解

python爬虫是什么意思（简单好玩的编程代码）

python线程的几种创建方式详解

使用Python编写简单网络爬虫抓取视频下载资源

详解如何在cmd命令窗口中搭建简单的python开发环境