从淘宝屏蔽百度说起 如何让网站不被抓取
上周五,北方网在第一时间报道了关于淘宝屏蔽百度蜘蛛爬虫抓取的消息 ,立刻引起了业界的广泛关注。这一事件被普遍认为与百度发力C2C同淘宝构成直接竞争有关,另有分析也认为这与阿里巴巴近日将淘宝与阿里妈妈业务整合的举措亦存在关系,阿里巴巴希望就此截断淘宝网店的免费流量来源从而吸引网店商家选择自家的阿里妈妈广告推广。
在众多媒体对这一新闻的报道中,多次提到“robots.txt”这个技术名词。比如在证实淘宝屏蔽百度时提到的“淘宝网已经开始屏蔽百度蜘蛛 爬虫。淘宝在网站根目录下的robots.txt文件中设置相关命令,禁止百度蜘蛛获取网页信息。”并给出了URL为 http://www.taobao.com/robots.txt的链接截图予以证明。
那么,这个“robots.txt”是什么呢?
robots.txt(小写字母)是一种存放在一些网站的服务器根目录下的ASCII编码的文本文件。它的作用是告诉搜索引擎的爬虫机器人(又 称网络蜘蛛、漫游器)该网站中的哪些内容是不允许被搜索引擎爬虫抓取的,哪些是允许被抓取的。由于在一些系统中URL大小写敏感,因此 robots.txt的文件名均统一为小写。robots.txt放置在网站的根目录下。
比如之前我们截图中所看到的淘宝网的robots.txt:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
可以看出淘宝的robots.txt显然是专门为了屏蔽百度的爬虫而准备的。
值得注意的是robots.txt协议并不是一个法律意义上的约束性规范,它只是长期以来在网站之间约定俗成的道德性公约而已,因此并不能完全确保网站的隐私不被不遵守这一协议的搜索引擎抓取。
如果您也是一个站长,如果也不希望被百度爬虫所抓取,那么该怎么做呢?您可以在百度提供的FAQ“如何让我的网页不被百度收录 ”中找到来自官方的建议:
* 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
* 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件 。
* 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
* 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。
但我们同时也注意到近日一则题为《淘宝屏蔽百度 百度回应将开绿色通道 》 的报道:“百度电子商务事业部总经理李明远表示:针对淘宝全面禁止百度爬虫抓取页面,百度准备开辟绿色通道”。尽管这位百度发言人解释“绿色通道”的实现 方式只是“让卖家直接向百度索引库提交网店页面链接地址”,但结合robots.txt这个“协议”在法律或技术层面都不具备任何硬性的约束力,我们有理 由怀疑百度的“绿色通道”是否还有另外一层含义。
上一篇: Ant实践过程初记