404错误的处理方式及对SEO的影响搜索引擎Google应用服务器浏览器IIS

程序员文章站 2024-02-20 17:30:55

...

在“通过HTTP状态码查看搜索引擎蜘蛛如何爬行你的网站”一文中，我介绍了一些经常涉及到的HTTP状态码及含义，譬如大家经常探讨并且与本文相关的Http状态码：
404：服务器找不到指定的资源，请求的网页不存在(譬如浏览器请求的网页被删除或者移位，但不排除日后该链接有效的可能性)；
410：请求的网页不存在(注意：410表示永久性，而404表示临时性)；
200：服务器成功返回请求的网页；
301：网址永久性重定向
302：网址临时性重定向
注意：大部分搜索引擎将“404”与“410”状态同等对待，如Google。(参见Matt Cutts的说明)
对HTTP404状态码的理解
　　HTTP 404 错误意味着链接指向的网页不存在，即原始网页的URL失效，这种情况经常会发生，很难避免，比如说：网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误等，导致原来的URL地址无法访问；当Web 服务器接到类似请求时，会返回一个404 状态码，告诉浏览器要请求的资源并不存在。但是，Web服务器默认的404错误页面，无论Apache还是IIS，均十分简陋、呆板且对用户不友好，无法给用户提供必要的信息以获取更多线索，无疑这会造成用户的流失。

　　因此，很多网站均使用自定义404错误的方式以提供用户体验避免用户流失。一般而言，自定义404页面通用的做法是在页面中放置网站快速导航链接、搜索框以及网站提供的特色服务，这样可以有效的帮助用户访问站点并获取需要的信息。
HTTP404对SEO的影响
　　自定义404错误页面是提供用户体验的很好的做法，但在应用过程中往往并未注意到对搜索引擎的影响，譬如：错误的服务器端配置导致返回“200”状态码或自定义404错误页面使用Meta Refresh导致返回“302”状态码。正确设置的自定义404错误页面，不仅应当能够正确地显示，同时，应该返回“404”错误代码，而不是 “200”或“302”。虽然对访问的用户而言，HTTP状态码究竟是“404”还是“200”来说并没有什么区别，但对搜索引擎而言，这则是相当重要的。
(一)自定义404错误页返回“200”状态码
　　当搜索引擎蜘蛛在请求某个URL时得到“404”状态回应时，即知道该URL已经失效，便不再索引该网页，并向数据中心反馈将该URL表示的网页从索引数据库中删除，当然，删除过程有可能需要很长时间；而当搜索引擎得到 “200”状态回应时，则会认为该url是有效的，便会去索引，并会将其收录到索引数据库，这样的结果便是这两个不同的url具有完全相同的内容：自定义 404错误页面的内容，这会导致出现复制网页问题。对搜索引擎而言，特别是Google，不但很难获得信任指数TrustRank，也会大大降低 Google对网站质量的评定。（为什么会出现返回“200”状态码的情况？？请参看下面内容“自定义404错误页面的基本原则”）

　　我一直在使用Google Sitemap，当我们提交XML格式网站地图文件时，Google会验证我们的身份以确保是网站合法的管理者。验证方式有两种：上传指定名称的html 页到网站根目录或者在网页meta区域添加一个标识身份的meta标签。我通常是使用上传html网页的方式，但Google却提示我网站根目录下找不到这个网页（实际上我已上传，并且通过浏览器可以访问），这是一个很可怕的问题