一、Python爬虫-认识爬虫

程序员文章站 2022-06-15 10:39:03

认识爬虫爬虫是什么：爬取互联网上的信息数据挖掘->数据清洗（得到有效的信息）爬虫分类：通用爬虫：是搜索引擎抓取系统（百度，谷歌）的重要组成，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份抓取网页 -> 数据存储 -> 预处理 -> 提供检索，网站排名聚焦爬虫：是"面 ......

认识爬虫

　　爬虫是什么：

　　　　爬取互联网上的信息

　　　　数据挖掘->数据清洗（得到有效的信息）

　　爬虫分类：

　　　　通用爬虫：是搜索引擎抓取系统（百度，谷歌）的重要组成，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份

　　　　抓取网页 -> 数据存储 -> 预处理 -> 提供检索，网站排名

　　　　聚焦爬虫：是"面向特定主体需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息

请求和响应

　　前端：网页展现　　　　　　　　

　　中间层：数据处理　　　　　　　

　　数据库：数据存储　　　　　　

　　服务器（响应）客户端（请求）　　　　　　　　　

url

　　（uniform/universal resource locator）：统一资源定位符，是用于完整地描述internet上网页和其他资源的地址的一种标识方法

　　一、Python爬虫-认识爬虫

　　基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]

　　scheme：协议

　　host：服务器的ip地址或者域名

　　port#：服务器的端口（如果是走协议默认端口，缺省端口80）

　　query-string：参数，发送给http服务器的数据

　　anchor：锚（跳转到网页的指定锚点位置）

get请求和post请求

　　get是从服务器上获取数据，post是向服务器传输数据，post更加安全

　　get请求：参数显示都显示在浏览器网址上，http服务器根据该请求所包含的url中的参数来产生响应内容，即"get"请求的参数是url的一部分

　　post请求：参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向http服务器提交量比较大的数据，请求参数包含在"content-type"消息头里，指明该消息体的媒体类型和编码

浏览器开发者工具

　　按下f12，进入开发者模式；

上一篇：吕后去世后大臣们才发动了诛吕行动为何活着的时候无一人动手呢

下一篇： Win10提示系统管理员设置了系统策略该如何解决

一、Python爬虫-认识爬虫

认识爬虫

请求和响应

url

get请求和post请求

浏览器开发者工具

python爬虫爬取微博评论案例详解

python抓取网页图片示例(python爬虫)

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）

【Python必学】Python爬虫反爬策略你肯定不会吧？

python爬虫系列：三、URLError异常处理

python爬虫之自动登录与验证码识别

爬虫基础框架之urllib(一) --- urllib基础

python高阶爬虫实战分析

python用BeautifulSoup库简单爬虫实例分析

Python爬虫包BeautifulSoup实例（三）

一、Python爬虫-认识爬虫

认识爬虫

请求和响应

url

get请求和post请求

浏览器开发者工具

python爬虫爬取微博评论案例详解

python抓取网页图片示例(python爬虫)

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）

【Python必学】Python爬虫反爬策略你肯定不会吧？

python爬虫系列：三、URLError异常处理

python爬虫之自动登录与验证码识别

爬虫基础框架 之urllib(一) --- urllib基础

python高阶爬虫实战分析

python用BeautifulSoup库简单爬虫实例分析

Python爬虫包BeautifulSoup实例（三）

爬虫基础框架之urllib(一) --- urllib基础