欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

一、Python爬虫-认识爬虫

程序员文章站 2022-06-15 10:39:03
认识爬虫 爬虫是什么: 爬取互联网上的信息 数据挖掘->数据清洗(得到有效的信息) 爬虫分类: 通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名 聚焦爬虫:是"面 ......

认识爬虫

  爬虫是什么:

    爬取互联网上的信息

    数据挖掘->数据清洗(得到有效的信息)

  爬虫分类:

    通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份

    抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名

    聚焦爬虫:是"面向特定主体需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息

请求和响应

  前端:网页展现        

  中间层:数据处理       

  数据库:数据存储      

  服务器(响应)客户端(请求)           

url

  (uniform/universal resource locator):统一资源定位符,是用于完整地描述internet上网页和其他资源的地址的一种标识方法

  一、Python爬虫-认识爬虫

  基本格式:scheme://host[:port#]/path/.../[?query-string][#anchor]

  scheme:协议

  host:服务器的ip地址或者域名

  port#:服务器的端口(如果是走协议默认端口,缺省端口80)

  query-string:参数,发送给http服务器的数据

  anchor:锚(跳转到网页的指定锚点位置)

get请求和post请求

  get是从服务器上获取数据,post是向服务器传输数据,post更加安全

  get请求:参数显示都显示在浏览器网址上,http服务器根据该请求所包含的url中的参数来产生响应内容,即"get"请求的参数是url的一部分

  post请求:参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向http服务器提交量比较大的数据,请求参数包含在"content-type"消息头里,指明该消息体的媒体类型和编码

浏览器开发者工具

   按下f12,进入开发者模式;