欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python网络爬虫2

程序员文章站 2022-05-04 11:28:36
...
#requests库只适合爬取网页,而且是xiaoguimode
#scrapy库可以爬取网站和系列网站,属于中等类型的爬取
#更大的爬取就是爬取整个internet,这就需要定制开发
#服务器可能是按照人数来限制,一个爬虫相当于几百个人同时访问网页
#对服务器性能有很大的要求,带来巨大的资源开销
#相当于骚扰电话
#网络爬虫爬取到的数据可能会被人用来牟利,可能会触犯法律
#一些人把自己的照片放到晚上并设置了简单的防御体系
#但是网络爬虫可以突破这些简单防御体系从而获得照片
#网络爬虫的限制
#1.检查来访HTTP协议头的User—Agent域,只响应浏览器或友好爬虫
#访问网站时无论是浏览器还是其他软件都会把自己设置成一个标识,放到User-Agent里面
#2.发布公告:Robots协议
#告知所有爬虫网站的爬取策略,要求爬虫遵守
#但到底尊不遵守还是要看爬虫
#Robots协议
'''
作用:告知爬虫那些页面可以爬取,那些不能
形式:在网站根目录下的robots.txt文件
'''
#以下是京东的robots协议
#直接输入https://www.jd.com/robots.txt就可以了
#针对所有爬虫
User-agent: *
#任何爬虫都不能访问以?开头的路径
Disallow: /?*
#任何爬虫都不能访问pop目录下任何html文件
Disallow: /pop/*.html
#和上述一样
Disallow: /pinpai/*.html?*
#EtaoSpider和下面三个不允许爬取京东任何资源
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /     

相关标签: Python