python网络爬虫学习（一）

程序员文章站 2022-05-08 17:41:15

...

网络爬虫的定义：

一个程序脚本--->自动的抓取互联网上信息的脚本。

爬虫可以解决的问题：

（1）解决冷启动问题。
（2）搜索引擎的根基：做搜索引擎少不了爬虫。
（3）建立知识图谱，帮助建立机器学习知识图谱。
（4）可以制作各种商品的比价软件，趋势分析。

爬虫工程师的进阶之路

1.初级爬虫工程师：

1.web 前端的知识： HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等；
2、正则表达式， 能提取正常一般网页中想要的信息，比如某些特殊的文字， 链接信息， 知道什么是懒惰， 什么是贪婪型的正则；
3、会使用 XPath 等获取一些DOM 结构中的节点信息；
4、知道什么是深度优先， 广度优先的抓取算法， 及实践中的使用规则；
5、能分析简单网站的结构， 会使用urllib或requests 库进行简单的数据抓取。

2.中级爬虫工程师：

1、了解什么是HASH，会简单地使用MD5，SHA1等算法对数据进行HASH一遍存储
2、熟悉HTTP，HTTPS协议的基础知识，了解GET，POST方法，了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等
3、能设置user-agent进行数据爬取，设置代理等
4、知道什么是Request，什么事response，会使用Fiddler等工具抓取及分析简单地网络数据包；
   对于动态爬虫，要学会分析ajax请求，模拟制造post数据包请求，
   抓取客户端session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。
5、对于一些难搞定的网站学会使用phantomjs+selenium抓取一些动态网页信息
6、并发下载，通过并行下载加速数据爬取；多线程的使用。

3.高级爬虫工程师：

1、能够使用Tesseract，百度AI，HOG+SVM，CNN等库进行验证码识别。
2、能使用数据挖掘技术，分类算法等避免死链。
3、会使用常用的数据库进行数据存储，查询。比如mongoDB，redis；学习如何通过缓存避免重复下载的问题。
4、能够使用机器学习的技术动态调整爬虫的爬取策略，从而避免被禁IP封禁等。
   能使用一些开源框架scrapy，scrapy-redis等分布式爬虫，
   能部署掌控分布式爬虫进行大规模数据爬取。

搜索引擎：

1.搜索引擎的主要组成：
	通用爬虫：就是将互联网的上页面整体的爬取下来之后，保存到本地。
		 1.通用爬虫要想爬取网页，需要网站的url.但是搜索引擎是可以搜索所有网页的。
		   那么通用爬虫url就要涉及到所有网页，这个‘所有’是如何做到的。
			1.新网站向搜索引擎主动提交网址
			2.在其他网站上设置新网站外链。
			3、搜索引擎和DNS解析服务商(如DNSPod等)合作，新网站域名将被迅速抓取。
2.搜索引擎的工作流程：
	第一步:抓取网页
		通过将待爬取的url加入到通用爬虫的url队列中，进行网页内容的爬取。
		
	第二步：数据存储：
		将爬取下来网页保存到本地。这个过程中会有一定的去重操作。如果某个网页的内容大部分重复，搜索引擎可能不会保存。
		
	第三步：预处理
		提取文字
		中文分词
		消除噪音(比如版权声明文字、导航条、广告等……)
		索引处理
	第四步：设置网站排名，为用户提供检索服务。
		
3.搜索引擎的局限性：
	1、搜索引擎只能爬取原网页，但是页面90%内容都是无用的。
	2、搜素引擎不能满足不同行业，不同员的特定需求。
	3、通用搜索引擎只能爬取文字信息，对于视频，文件，音频等其他信息无法爬取。
	4、只能基于关键字查询，无法基于语义查询。

聚焦爬虫：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

爬虫准备工作：

1.robots协议
	定义：网络爬虫排除标准
	作用：告诉搜索引擎哪些内容可以爬，哪些不能爬。
2、sitemap,就是一个网站地图，可以指导我们查看该网页下有哪些内容。
	https://help.bj.cn/
3、估算网站大小：
	在百度中输入：site：目标网站的地址。
4、为了更好的了解网站，抓取该网站的信息，我们可以先了解一下该网站大致所使用的的技术架构。
	安装builtwith：pip install bulitwith
	使用：在python交互环境下，输入：
	Import buildwith
	Buildwith.parse(‘http://www.sina.com.cn’)
5、有时候，我们需要知道网站的所有者是谁，这里在技术上有个简单地方法可以参考：
	安装python-whois：pip install python-whois
	使python的交互模式下输入：
	Import whois
	Whois.whois(‘http://www.sina.com.cn’)

http和https：

1、什么是http协议？
	http：超文本传输协议
	他是一个规范。----约束发布和接收html页面的规范。
	HTTPS (Hypertext Transfer Protocol over Secure Socket Layer)简单讲是http的安全版，在http下加入SSL层
2.http协议的端口号：80
  https协议的端口号：443
3、http协议的特点：
	（1）是一个应用层协议。
	（2）无连接
		每次请求都是独立的。
		http 1.1 增加了一个Connection: keep-alive，这个头表示，客户端和服务器的连接是一个长连接。
	（3）无状态。
		无状态表示客户端每次请求都不能记录请求状态。也就是两条请求之间无法进行通信。
		cookie和session可以帮助记录状态。

4、url：统一资源定位符。
	为什么可以通过url来定位互联网上的任意资源？
	http：//ip:port/path
	ip：可以定位电脑
	port：端口号---用来从互联网上进入电脑。
	path:就是为了在电脑中找到对应的资源路径。
	
	有三种特殊符号
	？：问好后面就是请求参数。?username='zhangsan'&password='123'
	&：请求参数用&连结。?username='zhangsan'&password='123'
	#：表示锚点：锚点就是在请求这个url时，页面会跳入锚点指定位置。
	
	基本格式：scheme://host[:port#]/path/…/[?query-string][#anchor]
	scheme：协议(例如：http， http， ftp)
	host：服务器的IP地址或者域名
	port：服务器的端口(如果是走协议默认端口，缺省端口80)
	path：访问资源的路径
	query-string：参数，发送给http服务器的数据
	anchor：锚(跳转到网页的指定锚点位置)
	
	在python中，有一个模块可以帮助我们解析url。
	代码：
		from urllib import parse

		url = 'http://localhost.com:8080/index.htm?username="zhangsan"&password="123"'
		print(parse.urlparse(url))
	输入内容：
		ParseResult(
			scheme='http', 
			netloc='localhost.com:8080', 
			path='/index.htm', 
			params='', 
			query='', 
			fragment='')
5、http工作过程
  （1）地址解析，将url解析出对应的内容：
		
	  scheme：协议(例如：http， http， ftp)
	host：服务器的IP地址或者域名
	port：服务器的端口(如果是走协议默认端口，缺省端口80)
	path：访问资源的路径
	query-string：参数，发送给http服务器的数据
	anchor：锚(跳转到网页的指定锚点位置)
   （2）封装http请求数据包
   （3）封装成TCP包，建立TCP连接（TCP的三次握手）
		TCP握手协议 
		第一次握手：建立连接时,客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认； 
		SYN：同步序列编号(Synchronize Sequence Numbers)
		第二次握手：服务器收到syn包,必须确认客户的SYN（ack=j+1）,
		同时自己也发送一个SYN包（syn=k）,即SYN+ACK包,此时服务器进入SYN_RECV状态； 
		第三次握手：客户端收到服务器的SYN＋ACK包,向服务器发送确认包ACK(ack=k+1),
		此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。
		完成三次握手,客户端与服务器开始传送数据
		
	（4）客户端发送请求。
	（5）服务器发送响应。
	（6）服务器关闭tcp连接。
6、当我们在浏览器输入一个url，为什么可以加载出一个页面？
   为什么，在抓包的过程中，请求了一个url，会出现很多的资源请求。
	（1）当我们在浏览器输入一个url，客户端会发送这个url对应的一个请求到指定服务器获取内容。
	（2）服务器收到这个请求，解析出对应的内容，之后将内容封装到响应里面发送给客户端。
	比如index.html页面。
	（3）当客户端拿到这个html页面，会查看这个页面中是否有css、js、image等url，如果有，在分别进行请求，获取到这些资源。
	（4）客户端会通过html的语法，将获取到的所有内容完美的显示出来。
7、客户端请求：
	（1）组成：请求行、请求头部、空行、请求数据四个部分组成
	 (2) 请求方法get/post
		1、get方法：
		 get,获取--->从服务器上获取资源--->通过请求参数来告诉服务器获取什么资源。
		 --->请求参数是在url里面用&进行拼接的，也就是？后面的内容。---->所以不安全--->传输参数大小受限。
		2、post请求：
			post，传递--->向服务器传递数据---->数据是封装在请求的实体。--->可以传递更多内容--->更安全。
	    3、get和post的区别
			（1）get是从服务器获取内容，post是向服务器传递内容
			（2）get不安全，因为参数拼接在url后面。post比较安全，因为参数是放在是实体里面。
			（3）get传参大小受限，post不受限。
		 
	（3）重要的请求头：
		User-Agent：客户端请求标识。
		Accept： (传输文件类型)允许传入的文件类型。
		Referer ：表明产生请求的网页来自于哪个URL，用户是从该Referer页面访问到当前请求的页面。
		cookie (cookie)：在做登录的时候需要封装这个头。
		Content-Type (POST数据类型)
		
		发送POST请求时，需要特别注意headers的一些属性：
		Content-Length: 144： 是指发送的表单数据长度为144，也就是字符个数是144个。
		X-Requested-With: XMLhttpRequest ：表示Ajax异步请求。
		
8、服务响应
	1、组成：状态行，响应头，空行，响应正文。
	2、重要响应头：
		Content-Type：text/html;charset=UTF-8：告诉客户端，资源文件的类型，还有字符编码
		
	3、状态码：
		100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。
		200~299：表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)。				
		300~399：为完成请求，客户需进一步细化请求。
		例如：请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)。
		400~499：客户端的请求有错误，常用404(服务器无法找到被请求的页面)、403(服 务器拒绝访问，权限不够---DDos)。
		500~599：服务器端出现错误，常用500(请求未完成。服务器遇到不可预知的情况)。

Hash算法

1、定义
    Hash ：散列，通过关于键值(key)的函数，将数据映射到内存存储中一个位置来访问。这个过程叫做Hash，这个映射函数称做散列函数，存放记录的数组称做散列表(Hash Table),又叫哈希表。

    简单地说，它是密码学中的一个重要的函数，一般以

	表示。这个函数可以将任意一段数据（一般称这段数据为“消息”）压缩成固定长度的字符串（一般称输出的字符串为“摘要”）。哈希函数需要满足下述条件：
	确定性：哈希函数的算法是确定性算法，算法执行过程不引入任何随机量。这意味着相同消息的哈希结果一定相同。
	高效性：给定任意一个消息m，可以快速计算
	
	
	目标抗碰撞性：给定任意一个消息m1,很难找到另一个消息m2，使得
	
	
	广义抗碰撞性：很难找到两个消息m0不等于m1的情况下，使得


2、优点
    先分类，再查找，通过计算，缩小范围，加快查找速度
3、Hash的作用
	数字签名：给数据打指纹
		比如我们下载一个文件，文件的下载过程中会经过很多网络服务器、路由器的中转，
		如何保证这个文件就是我们所需要的呢？
		我们不可能去一一检测这个文件的每个字节，
		也不能简单地利用文件名、文件大小这些极容易伪装的信息，
		这时候，我们就需要一种指纹一样的标志来检查文件的可靠性，
		这种指纹就是我们现在所用的Hash算法(也叫散列算法)。
		
	密码存储：在用户进行网站登录时，如果服务器直接存储用户密码，则如果服务器被攻击者所攻击，用户的密码就会遭到泄露。
		最典型的事件就是CSDN的密码明文存储事件了。
		为了解决这个问题，服务器可以仅存储用户密码的哈希结果。
		当用户输入登录信息后，服务器端可以计算密码的哈希结果，
		并与存储的哈希结果进行对比，如果结果相同，则允许用户登录。
		由于服务器不直接存储用户密码，因此即使服务器被攻击者攻击，用户的密码也不会被泄露。
		这也是为什么我们在使用【找回密码】功能时，服务器直接请求输入新的密码，
		而不是把原始密码发送给我们。

4、hash算法的特性
	正向快速：给定明文和 hash 算法，在有限时间和有限资源内能计算出 hash 值。
	逆向困难：给定（若干） hash 值，在有限时间内很难（基本不可能）逆推出明文。
	输入敏感：原始输入信息修改一点信息，产生的 hash 值看起来应该都有很大不同。
	冲突避免：很难找到两段内容不同的明文，使得它们的 hash 值一致（发生冲突）。即对于任意两个不同的数据块，
	其hash值相同的可能性极小；对于一个给定的数据块，找到和它hash值相同的数据块极为困难。
	所以因为他的不可逆性，hash算法常常用来给一些信息加密，因为这种不可逆性，
	你不仅不可能根据一段通过散列算法得到的指纹来获得原有的文件，
	也不可能简单地创造一个文件并让它的指纹与一段目标指纹相一致。
5、hash算法（了解）
 （1）直接定值法：取Key或者Key的某个线性函数值为散列地址。
 （2）数字分析法：需要知道Key的集合，并且Key的位数比地址位数多，选择Key数字分布均匀的位。
	Hash(Key) 取六位：
	列数 ： 1   (2)   3   (4)   5   (6)   (7)   8   (9)   10   11   12   (13)
	key1：  5    2    4    2    7    5     8     5     3     6     5     1      3
	key2：  5    4    4    8    7    7     7     5     4     8     9     5      1
	key3：  3    1    5    3    7    8    5      4     6     3      5     5     2
	key4：  5    3    6    4    3    2      5    4     5      3      2    6     4
	
	其中(2、4、6、7、9、13) 这6列数字无重复，分布较均匀，取此六列作为Hash(Key)的值。
	Hash(Key1) :225833
	Hash(Key2):487741
	Hash(Key3):138562
	Hash(Key4):342554
	
	（3）平方取中法：取Key平方值的中间几位作为Hash地址。
	（4）折叠法：将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后 取这几部分的叠加和（舍去进位）作为哈希地址。 
		当Key的位数较多的时候数字分布均匀适合采用这种方案.
	（5）随机数法：伪随机探测再散列。
	    具体实现：建立一个伪随机数发生器，Hash(Key) = random(Key). 以此伪随机数作为哈希地址。
	（6）除留余数法：取关键字被某个除数 p 求余，得到的作为散列地址。
	    即 H(Key) = Key % p；
	6、Hash有哪些流行的算法
	目前流行的 Hash 算法包括 MD5、SHA-1 和 SHA-2。
	
	MD4（RFC 1320）是 MIT 的 Ronald L. Rivest 在 1990 年设计的，
	MD 是 Message Digest 的缩写。其输出为 128 位。MD4 已证明不够安全。
	
	MD5（RFC 1321）是 Rivest 于1991年对 MD4 的改进版本。
	它对输入仍以 512 位分组，其输出是 128 位。MD5 比 MD4 复杂，
	并且计算速度要慢一点，更安全一些。MD5 已被证明不具备”强抗碰撞性”。
	
	SHA （Secure Hash Algorithm）是一个 Hash 函数族，
	由 NIST（National Institute of Standards and Technology）于 1993 年发布第一个算法。
	目前知名的 SHA-1 在 1995 年面世，它的输出为长度 160 位的 hash 值，因此抗穷举性更好。
	SHA-1 设计时基于和 MD4 相同原理，并且模仿了该算法。SHA-1 已被证明不具”强抗碰撞性”。
	
	为了提高安全性，NIST 还设计出了 SHA-224、SHA-256、SHA-384，和 SHA-512 算法（统称为 SHA-2），
	跟 SHA-1 算法原理类似。SHA-3 相关算法也已被提出。

7、何谓Hash算法的「碰撞」？
    如果两个key通过hash函数处理之后得到的散列值相同，这种情况就叫做散列算法的碰撞（collision）。
    现代散列算法所存在的理由就是，它的不可逆性能在较大概率上得到实现，
    也就是说，发现碰撞的概率很小，这种碰撞能被利用的概率更小。
    7.1MD5碰撞案例
	import hashlib

	两段HEX字节串，注意它们有细微差别
	a = bytearray.fromhex("0e306561559aa787d00bc6f70bbdfe3404cf03659e704f8534c00ffb659c4c8740cc942feb2da115a3f4155cbb8607497386656d7d1f34a42059d78f5a8dd1ef")

	b = bytearray.fromhex("0e306561559aa787d00bc6f70bbdfe3404cf03659e744f8534c00ffb659c4c8740cc942feb2da115a3f415dcbb8607497386656d7d1f34a42059d78f5a8dd1ef")

 	输出MD5，它们的结果一致
	print(hashlib.md5(a).hexdigest())
	print(hashlib.md5(b).hexdigest())

    这样的例子还有很多。因此，MD5在数年前就已经不被推荐作为应用中的散列算法方案，取代它的是SHA家族算法，
    也就是安全散列算法（Secure Hash Algorithm，缩写为SHA）。
    7.2 	SHA家族算法以及SHA1碰撞
    SHA家族算法的种类很多，有SHA0、SHA1、SHA256、SHA384等等，它们的计算方式和计算速度都有差别。
    其中SHA1是现在用途最广泛的一种算法。
    包括GitHub在内的众多版本控制工具以及各种云同步服务都是用SHA1来区别文件，
    很多安全证书或是签名也使用SHA1来保证唯一性。
    长期以来，人们都认为SHA1是十分安全的，至少大家还没有找到一次碰撞案例。

上一篇： python网络爬虫入门（一）

下一篇：发几个小笑话轻松一下

python网络爬虫学习（一）

网络爬虫的定义：

爬虫可以解决的问题：

爬虫工程师的进阶之路

1.初级爬虫工程师：

2.中级爬虫工程师：

3.高级爬虫工程师：

搜索引擎：

爬虫准备工作：

http和https：

Hash算法

python爬虫项目-一见倾心壁纸

Python爬虫学习==>第三章：Redis环境配置

python基础学习（一）

Python网络爬虫项目：内容提取器的定义

《精通Python网络爬虫》第18章　博客类爬虫项目代码

一些常用的Python爬虫技巧汇总

Python 爬虫学习笔记之正则表达式

Python 爬虫学习笔记之多线程爬虫

Python 爬虫学习笔记之单线程爬虫

java实现一个简单的网络爬虫代码示例

python网络爬虫学习（一）

网络爬虫的定义：

爬虫可以解决的问题：

爬虫工程师的进阶之路

1.初级爬虫工程师：

2.中级爬虫工程师：

3.高级爬虫工程师：

搜索引擎：

爬虫准备工作：

http和https：

Hash算法

python爬虫项目-一见倾心壁纸

Python爬虫学习==>第三章：Redis环境配置

python基础学习（一）

Python网络爬虫项目：内容提取器的定义

《精通Python网络爬虫》第18章 博客类爬虫项目代码

一些常用的Python爬虫技巧汇总

Python 爬虫学习笔记之正则表达式

Python 爬虫学习笔记之多线程爬虫

Python 爬虫学习笔记之单线程爬虫

java实现一个简单的网络爬虫代码示例

《精通Python网络爬虫》第18章　博客类爬虫项目代码