欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

爬虫第一课:学习爬虫前对网页进行认识

程序员文章站 2022-06-16 21:34:38
前言 首先我们提到爬虫,我们不得不说网页,因为我们使用python编写的爬虫实际上是针对于网页进行设计的,解析网页以及抓取这些数据是爬虫需要做的事情,日常中我们看到这些网页,可以看到很多图片,很多的标题以及很多的文字信息,实际上他们都是在浏览器渲染后的结果,我们可以吧浏览器理解为一个翻译官,它把这些 ......

前言

  首先我们提到爬虫,我们不得不说网页,因为我们使用python编写的爬虫实际上是针对于网页进行设计的,解析网页以及抓取这些数据是爬虫需要做的事情,日常中我们看到这些网页,可以看到很多图片,很多的标题以及很多的文字信息,实际上他们都是在浏览器渲染后的结果,我们可以吧浏览器理解为一个翻译官,它把这些原始的信息,原始的网页的代码翻译成一些我们可视化的元素。

通过网页看源码

  为了可以使我们更形象化的看一下,我们可以在网页空白处右键,点击检查,这时候我们都可以看到网页的源代码,还有一栏是css样式,这些我们先不进行讲解,我们先看一下,在网页上的每一个标签,文字,或者图片都对应着一段代码,我们点击右边一栏左上角的箭头符号,我们可以试着点击一个图片,可以看到源码的地方高亮处了一块,这里面包含了这个图片的连接。

爬虫第一课:学习爬虫前对网页进行认识

  实际上这些代码又分成三个部分,第一部分就是有html组成的这个结构部分,有很多带标签的像divsection等都是由html语言写成的,例如我们看到一个标签后面跟着一个class,实际上这个是标签对应的样式,也就是在最右侧这一栏,就是样式,每次加载网页都会有这两个,信息,一个是html一个css样式,然后在源码的最低侧,还有一个script标签,这个里面加载的是javascript代码,这三者,就是htmlcssjavascript就构成了一个绝大多数网页的结构,接下来我们就举一个例子。

HTML

  这三者的关系就好比我们住的房间,其中html就相当于房间中的结构部分,用于区分哪一块哪一块具体是做什么用的,比如一个房子中客厅,卧室的区别。

爬虫第一课:学习爬虫前对网页进行认识

 

CSS

css部分就相当于我们房间的装修,它是一个样式,它决定了墙壁是什么颜色的,房顶是怎么样的,对我们的结构加以装饰。

 爬虫第一课:学习爬虫前对网页进行认识

JAVASCRIPT

-avascript部分你可以把它理解为这是房间中的电器的一些功能,电视点灯之类的。

爬虫第一课:学习爬虫前对网页进行认识

  我们学习网络爬虫,实际上很多网页中的元素是加杂在htmlcss中的,所以针对于爬虫的话,javascript可能涉及比较少。所以我们这一次就简单的对html以及css进行介绍。

首先我们在刚才的例子中,我们可以看到了网页中用到了很多很多这个div标签。

 爬虫第一课:学习爬虫前对网页进行认识

  这个<div>标签代表的是网页中的一个区域的意思,这个区域代表着我在这个区域能装什么东西,做一个形象的比喻,当有一个div的标签,那么在网页之中就对应着他存在的一块区域,有了固定区域之后,需要在里面加一些内容 ,例如我们看到的图片,标题。我们可以对标签进行套嵌,可以在div中添加一部分文字,例如一个<p>标签,但是网页不可能这么简陋,我们需要加上这个css的样式进行修饰,然后这个就是我们网站的html以及css的基本用法。我们可以知道,这<div>标签可以在里面添加内容,而这个标签是一个区域框架。

  还有一些常见的例如 <li>这个是列表,就是我们日常生活中12345的那个列表,还有就是<img>,使用这个标签之后你就可以插入一张图,再有就是h1h1h6是代表着不同字号的标题

  <a href=‘#’>我们可以在网页中看到夹杂了很多连接,实际上使用这个标签把它连接起来的,实际这些简单的标签可以构成了一个简单的网页,学习网站最好的方法莫过于去写一个网站,这里就不再带着大家进行网页的编写了,自己可以去了解一下。

  我自己有写过网页的博客,大家可以去学习一下https://www.cnblogs.com/liudi2017/p/7614919.html。