【官方说法】百度站长平台对HTTPS站点全流程支持方案文字概述
5 月 25 日,vip大讲堂-网站安全那些事儿成功举办,现场发布百度对https站点全流程支持方案,收到站长们广泛关注!学院君贴心的将现场演讲提炼成文字版本带给大家,快来看吧!
https优势
https是基于tls和ssl加密的http协议,网络传输是加密的,因此它的安全是显而易见的,包括防窃听、篡改、劫持。
https的收录机制
1、spider如何发现https
1)、根据网页中的超链接是否是https,网络中会有一些超链,如果是https会认为是https站点。
2)、根据站长平台提交入口的提交方式,例如主动提交,如果在文件当中提交的是https链接会以https的形式来发现。
3)、参考前链的抓取相对路径,第一个网页是https的,网站内容里面的路径提供的是相对路径,会认为这种链接是https。
4)、参考链接的历史状况,使用这种方式的原因主要是为了纠错,如果错误提取https会遇到两种情况,一种因为https不可访问会抓取失败,第二即使能抓成功可能展现出来的可能不是站长希望的,所以会有一定的纠错。
2、https链接的抓取
现在比较常见的两种,第一种是纯https抓取,就是它没有http的版本,第二个是通过http重定向到https,这两种都能正常的进行抓取跟http抓取的效果是一样的。
3、https的展现
对于https数据,展现端会有明显的提示
站长平台支持全站https配置
1、https配置
之前有一些站长改https,会疑问为什么站点有些链接是以http的形式来抓呢?为什么没有全站都是以https的形式来抓取呢?因为以前的机制是url级的,https抓完一条替换一条,整站需要全抓完才能全部替换掉,现在大家访问站长平台可以发现,左边工具栏多了https认证的功能,站长平台已经全站支持https,点这个功能后会有提示引导我们去怎么做,需要提醒是需要全站支持https,才进行点击,如果不支持的话对站点会有一些副作用。
2、https验证
当站长在平台上做了配置以后首先会有https验证,验证确认站长是否误配,具体会检查https链接是不是可抓取的。另外会对https的证书校验,包括它的合法性、是否过期、跟它本身的域名是否一致,从这三个角度做校验。
3、https生效
校验通过后,生效方式从这三个角度进行
1)、全站抓取以https的方式来抓,这会在抓取上做一定的切换
2)、全站的展现样式也会直接切换成https,用了这个功能的好处是会比以前快很多,会略过已收录的网页直接到https。
常见问题:
1、站长升级https是不是会影响爬虫抓取?不会。爬虫对https的合法链接都能抓
2、站长升级https是不是会影响索引量?不会的,建库做了相应升级,https的建库是不会有延迟的。
3、站长升级https是不是会影响排名点击流量?不会,https改造是不涉及到域名切换,或者说老域名到新域名样式的转变等等这个是不涉及的,可以做到完全无损的切换。
4、站长升级的https是不是会影响移动适配?不会有这种情况。
5、站长升级https是不是会影响站长平台工具?不会,站长平台链接提交等工具已经都支持https了。
站点建议:
1、建议站长从http到https的 301 跳转,不建议只有https,而无http到https的跳转关系,只用https访问对用户来说,可能会遇到问题。
2、不建议https、http这两种版本并存,这种情况存在三种问题,第一个它的维护成本比较高,需要维护两个版本;第二个做不到绝对安全,http访问有不安全风险;第三有不一致的可能性,随着长远的发展这两个版本可能会越来越不一致,会影响用户体验,我们建议站长做了https之后能对https做一定的跳转预设。
3、https回退到http极不建议。例如线上已经展示https的链接给用户点击,如果站长回退到http,用户在浏览器里面点开的时候会展现死链的样式是非常不建议的,做这个之前一定考虑。如果实在想做回退,请在站长平台提交https校验,并建议站点提前至少 24 小时在平台提交回退,这样能够保证站长的点击不会出现死链的形式,这点非常重要。
4、https网页没有建设完成之前不要在互联网上提供超链接,之前遇到过好几个case,本身https并没有做完,两个版本都存在,但是http是用户可访问的,或者说https的页面是一个临时性的假页面,这样站点有可能就以https的形式展现出来,会引起用户体验问题。