欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

爬虫

程序员文章站 2022-07-11 12:51:14
什么是爬虫 通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。java可以非常好 ......

什么是爬虫

通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程.


哪些语言可以实现爬虫

  1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。

   2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿,重构成本较大。

   3.c、c++:可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人(大佬们)能力的体现,却不是明智和合理的选择。

   4.python:可以实现爬虫。python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具有非常强大的框架(scrapy等)且一句难以言表的好!没有但是!


爬虫的分类

  • 通用爬虫:获取一整张页面数据
  • 聚焦爬虫:根据指定的需求获取页面中指定的局部数据
  • 增量式爬虫:用来监测网站数据更新的情况。爬取网站最新更新出来的数

 

反爬机制:

网站可以采取先关的技术手段或者策略阻止爬虫程序进行网站数据的爬取


 

反反爬策略:

让爬虫程序通过破击反爬机制获取数据

 

robots协议:

如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话,那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取,该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人。


 

http协议:

client和server进行数据交互的形式


 

使用到的头信息:

  • user-agent:请求载体的身份标识
  • connection:'close'
  • content-type: