百度是怎么抓取页面的?网站SEO的几个问题解惑
上个月,百度站长平台于百度科技园举行了蝶变行动 度基因沙龙,会上针对网站seo、网站域名、百度抓取页面、applink等方面进行了交流探讨。以下为来自活动上的问题解答:包括js代码收录、url链接长短、*域名对排名的影响等。问答详情如下:
一、seo问题解答
q:在使用百度统计进行广告追踪的时候,配置的url链接会很长。这个追踪会不会影响seo?
a:这种存在多个url版本的统计代码,seo肯定有影响。针对这种情况有两个建议,一个是真正spider爬行和用户显示使用两套url。还有一种是不使用百度统计了,可以改使用谷歌里面的追踪,他可以使用#号链接,事件追踪,参考美团网。所有链接加上事件追踪。如果产生的话,也是通过#号产生,不增加额外参数。
q:假如一个页面开始是不符合百度的seo标准,后来将它改成符合标准,百度多久可以反馈很好的结果?
a:不同的站,贡献流量可能不一样。所以spider爬行的重点不一样,有的站可能更多去发现新链接,有的站可能去看旧链接。建议推送给百度,像首页这种抓取的话一般没有问题。
q:推送多久会有审核,一个星期或者半个月?
a:推送如果说是能够达到抓取标准,立即能抓。
q:网站有新老两种url,交替大概有两年时间,现在旧的url,跳转到新的url。因服务器问题,出现半小时断网,之后搜索关键词出现老的url,现在基本用所有的手法恢复不过来,这种情况我们怎么做?
a:用改版工具重新提交一下,确保是改版成功就不会有问题。再发现有问题截屏然后反馈给工程师这边追查,。
q:因为网站使用*域名(暂时变换不了),不知道有没有什么办法可以更好的提高搜索量或者抓取量?
a:百度搜索引擎备案都在国内,最好用国内备案的服务器和域名。
q:有的网站注册使用了很多域名,很多域名是并不想用户搜索出来的。现在取消了这些域名,但是还能搜出来,关掉过一次,后来没有效果,不知道这个怎么处理?
a:如果不需要那些站吗?可以把那些关掉就可以了。新域名在短暂时间的关闭,可能给用户调起一个老域名,当这一个域名关闭的情况下,我们不会给用户做长线。也不会找到这些东西。
q:网站是母婴类网站,在pc端上搜索流量很差。想问有没有方法?
a:类似像医疗、养生、保健、母婴这样的问题,百度对搜索结果的展现是非常谨慎。百度只给优质网站开放他们的展现可能性,网站在很长时间内拿不到流量都非常有可能。如果网站在seo上没有出现很大问题,可以审视内容方面是否都在竞争一些热门词。建议整个网站的权重和流量达到一定规模之后,再做热门词。如果一开始做这样的关键词,在网站信誉度不是很高的情况下,就会出现没有流量的情况。这种情况下,网站最好找到自己的一个差异化跟相关的词可能会更好。
q:网站是教育行业的,现在通过官网的认证,就是安全或者权威性的认证,认证之后会不会有潜在的特殊看待或者是无所谓。
a:认证这事比如说你是真的,还有一个假的,从用户的感知来讲你是官网。
q:数据化的问题,软件和pdf和word展示,包括什么类型,多大资源?放出来要以文章的内容放出来,还是pdf和文章是一样?还有个矛盾点,产品和运营希望用户下载完之后是直接可用,不会对pdf和word产生一些压缩或工具化处理,有些用户会经意或者不经意之间引导去下word,应该怎么做?
a:百度搜索条现在默认叫网页搜索,顾名思义是我们给用户展现都是一个网页。后面还有一个文库的文件格式。搜索出来都是让用户下载用的,可以去好好研究,在文库里面把内容展现出来。
q:有没有一个通道告诉搜索引擎我们的页面内容发生变化了,通常怎么处理?一个旧的页面已经被收录、被排序,一定周期之后他发动新的资源的补充和变化?
a:现在还没有这样的通道。首先spider这边会check一些东西,他发现网站经常出现这种状况,他相关的check流量会增加,不放心的话还是把他放到sitemap里。
q:网站本来只是一个首页,就是一个app下载。我们现在把内容放出来,以前这些内容不可抓取,现在用目录或者子域名放出需要提交改版么?
a:这个就放在域名下,用一个子目录把分门别类的东西放进去,不存在改版。首页改一下,其他不存在改版的问题。使用主动推送的工具效果还是非常明显,如果内容质量很ok,可以把配额都用光。
q:自动推送的份额是多长的周期调一次?因为我觉得对我们海量千万级或者是百万级数据量来说你那个份额太少。
a:我们也关注一个网站是否有这种爆发性,突然增量这么多,我们认为这很不正常。你还是循序渐进,别短平快,一夜吃成个胖子。第二个,你有这么多优秀的数据,你可以关注百度另外一个平台,你变成api让别人使用你的数据。别人对你的数用量做付费,可以关注这个。
q:超链接做url的绝对路径和相对路径会有影响吗?改版之后,我们页面有翻页,翻页链接是12345,上面带标签。每次抓的时候不会抓到12345里面去。模拟抓取,感觉抓取不到里面。页面上的a标签,spider都会去抓么?
a:没有太大的影响,正常可以访问就ok。不管是绝对路径还是相对路径,只要说这个地址对于spider或者是对于用户来讲都是畅通的,在页面呈现的时地址是完整,这个路径都是能够顺畅来做抓取。
不收录的问题,可以参考其他的一些点,比如是不是本身页面就没被访问到还是目录层级比较高。页面首页推送的链接百度都会去抓,一层一层的。路径如果正常spider路径都是从首页开始抓取。
首先就要看不被收录的链接志有没有被抓获,如果被抓获没有被收录,可能是页面本身的问题。也可以看一个周期,因为我们用一天时间。第二个是看日志里面有没有长尾,是不是隐藏或者层级搭建的时候没有做有效的抓取或者是有效推荐。如果能看日志,可以看日志去分析一下。
可以调整首页的变化,做一个推荐,做一个测试,看是链接的问题还是蜘蛛没有抓的问题。还有推送等等方式都可以解决,从而判断不收录的原因是什么。学院有一个文档解决关于诸多的问题题,类似于流程图一样。当这环做到了,原因是什么?如果够长,就可以走下面的分支看看。
q:站点之前是所有框架通过js展现,后来百度不收录,又进行了php改版。样子是一样,现在感觉这个php写的不太规范,百度对这个不太规范收录是什么样的?
a:很多酒店行业的的内容都通不是实时加载出来,是通过js慢慢获取页面上的内容。搜索引擎抓的话就是一个导航,就是这样的问题。以前空白页面收录很多,质量很不好。关于pattern认为这就低质量的pattern,内容可能也就这样,所以考虑换一个目录。
二、applink问题解答
q:现在网站的app已经做好了,加入applink这样会不会有大的改动?
a:h5的站点跟app有一个对应关系吗?比如说这边是h5站一百条的的内容,那边是app的100条内容,要对应起来。重点把网站排的比较靠前,一定要比较好的调起。
q:现在app引流是安卓跟ios,但是也有一少部分是windows phone,这app大概需要多长时间?
a:分两点说,看一下诺基亚对windows上面的平台策略。如果看到他有一些动作的话,我们肯定会关注。因为其实我们早期有一份协议的关于applink接入协议里面。我们可以有windowsphone调起的机制。用户点一个结果,点这个结果的话,我们有一个安卓ie在那里,可以接受ie,再传回给用户信息。只要把前端实现一些信息就可以做好,劳动量看起来不会很大,是可以实现的。除了windowsphone还有手表毕竟也是可以对app可以调,大家也可以看看。
q:app和网页版,很多app都是h5网页套进去,只是一个壳子在里面。百度做的applink,他是点完以后从百度app又弹到糯米app,又弹走了。他用百度搜数据量很大,百度的用户可能点下一个网站,你给他推到糯米上去,我们排在后面的人就没机会了。
a:其实applink调起这个事情不是一个技术壁垒的事情,是一个苦活的事情,对大站点可以自己做调起这个事情。对applink来说以后或许会有在有全方面的调整。对小站来说,小站接入的话目前来说有这个优势。因为小站接入也可以跳到小站内。
q:加入applink后,如果小站数据不够,一下就弹出去了?
a:回到你们站内的时候,至少是进入你们自己的生态。其实从搜索的角度出发,我们是将用户来满足用户的需求,如果我们引导到网站,如果网站无法满足需求,用户自然会调走。把用户导到你们那里,对网站是激励,满足用户需求,我觉得应该是这样子。
q:有applink在整个页面,会出一个分发按纽,分发按纽需要满足怎样的条件?
a:没有条件,你把app包给我们,我们帮你分发。
q:现在百度内容做对应的有好几个除了你们团队之外,还有手机助手,有区别么?
a:那个是早期的尝试,大家也知道移动跟pc都有合并,我们整体是输出产出一套的方案。可能在年的前半段时间我们推这个事情很费劲。我们当时也挺困惑,当时整体整个生态合并之后,现在比较合理我们整体输出都由applink做输出。手机助手不是搜索结果。产出可能在不同的产品线上,applink是出现在搜索结果中。
q:加入applink对移动站平台有影响吗?
a:这个还没有。但是他会有一个正常的点击。
q:安卓生态里面最麻烦就是有时候调不起来,像这种问题如果没调起来,会引导下载这样的操作吗?
a:一般调不起来有两种情况,一种就是安装包,因为安卓或者ios包,还有一个版本的问题。因为线上提交的版本是用户非更新了新的版本,或者可能一种情况就是用户安装了一个新的版本,但是他已经删除了,有时候调不起来,这样情况会访问到h5站。现在有套监控系统,如果去不到h5站,我们会发现搜索流量异常,有去修复这个事情。最快的情况是将问题反馈处理。
上一篇: 网站站长赚钱的6大好用的途径
下一篇: 科普:手机建站系统怎么选?怎么用?