欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫--02 robots协议

程序员文章站 2022-07-10 15:10:27
...

1 robots协议介绍

爬虫引发的问题

性能骚扰
法律风险
隐私泄漏

爬虫限制机制

来源审查:判断User‐Agent进行限制
发布公告:Robots协议

Robots协议

Robots Exclusion Standard,网络爬虫排除标准,放在网站根目录下的robots.txt文件,告知网络爬虫哪些页面可以抓取,哪些不行