Python网络爬虫2

程序员文章站 2022-05-04 11:28:36

...

#requests库只适合爬取网页，而且是xiaoguimode
#scrapy库可以爬取网站和系列网站，属于中等类型的爬取
#更大的爬取就是爬取整个internet，这就需要定制开发
#服务器可能是按照人数来限制，一个爬虫相当于几百个人同时访问网页
#对服务器性能有很大的要求，带来巨大的资源开销
#相当于骚扰电话
#网络爬虫爬取到的数据可能会被人用来牟利，可能会触犯法律
#一些人把自己的照片放到晚上并设置了简单的防御体系
#但是网络爬虫可以突破这些简单防御体系从而获得照片
#网络爬虫的限制
#1.检查来访HTTP协议头的User—Agent域，只响应浏览器或友好爬虫
#访问网站时无论是浏览器还是其他软件都会把自己设置成一个标识，放到User-Agent里面
#2.发布公告：Robots协议
#告知所有爬虫网站的爬取策略，要求爬虫遵守
#但到底尊不遵守还是要看爬虫
#Robots协议
'''
作用：告知爬虫那些页面可以爬取，那些不能
形式：在网站根目录下的robots.txt文件
'''
#以下是京东的robots协议
#直接输入https://www.jd.com/robots.txt就可以了
#针对所有爬虫
User-agent: *
#任何爬虫都不能访问以？开头的路径
Disallow: /?*
#任何爬虫都不能访问pop目录下任何html文件
Disallow: /pop/*.html
#和上述一样
Disallow: /pinpai/*.html?*
#EtaoSpider和下面三个不允许爬取京东任何资源
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

Python网络爬虫2

零基础写python爬虫之抓取百度贴吧代码分享

零基础写python爬虫之爬虫的定义及URL构成

零基础写python爬虫之HTTP异常处理

python爬虫实例详解

python3第三方爬虫库BeautifulSoup4安装教程

python面向对象多线程爬虫爬取搜狐页面的实例代码

python3爬虫之设计签名小程序

关于python2 csv写入空白行的问题

python网络编程学习笔记(10)：webpy框架

Python 2/3下处理cjk编码的zip文件的方法