爬虫的盗亦有道Robots协议

程序员文章站 2022-04-14 18:39:55

爬虫的规定 Robots协议网站开发者对于网络爬虫的规范的公告,你可以不遵守 ,但尽量去遵守 Robots协议:在网页的根目录+robots.txt Robots协议的基本语法: 如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制可以不参考robots协议,比如我们写的小程序 ......

爬虫的规定

robots协议

网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守

robots协议:在网页的根目录+robots.txt

robots协议的基本语法:

#注释,*代表所有,/代表根目录
user-agent:* #user-agent代表来源
allow:/ #代表运行爬取的内容
disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容

并不是所有网站都有robots协议

如果一个网站不提供robots协议,是说明这个网站对应所有爬虫没有限制

类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途

总的来说请准守robots协议

上一篇： python3解析网页经过base64编码后的图片

下一篇：标签--格式化标签

爬虫的盗亦有道Robots协议

爬虫的规定

robots协议

Scrapy爬虫遇到 ‘Forbidden by robots.txt’的问题

python爬虫--02 robots协议

Java网络编程之爬虫--计算机网络、应用层协议的综合应用

爬虫的盗亦有道Robots协议

Scrapy爬虫遇到 ‘Forbidden by robots.txt’的问题

SEO—关于网站收录、百度排名以及robots协议之间联系的初级学习

使用Python编写基于DHT协议的BT资源爬虫

使用Python编写基于DHT协议的BT资源爬虫

robots协议对网站、搜索引擎的重要性

python爬虫中http和https协议的详细讲解（图文）