欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  网络运营

百度 反垃圾网站的若干问答

程序员文章站 2022-03-16 15:42:22
应该算是一个媒体的采访稿,而里面涉及的百度反SPAM条款页面已经失效。不过不影响大家研究。... 09-11-27...
1:百度降权,封杀站点的标准是什么

9238:

第一, 是百度公开和唯一的标准,百度的反spam一直依此处理。就像所有其它搜索引擎一样,百度不能公开所有反spam细节,已公开的部分已经是搜索引擎中算很透明的了。

第二,在百度搜索引擎中对某些站点降权或去除的目的主要是反spam(或者叫反垃圾),反spam的唯一目的是提高用户搜索体验。百度反spam对所有网站一视同仁,不会因为任何网站是百度的客户或合作伙伴而降低惩罚标准,也不会因为任何网站与竞争对手合作或停止与百度的合作而加重惩罚。在百度中,有权限参与网站降权处理的只有了了几人,他们每一个都是极端的搜索爱好者,他们也有完全的自主权和独立性,不用关心处理哪个网站会影响流量或收入,不用给任何部门、任何同事或任何网站面子,他们唯一关心的是用户搜索体验。

第三,搜索引擎优化行为对用户体验的破坏程度是线性分布的,百度反spam是机器自动识别和人工识别互补的体系。既然有识别就有判断的阈值,无论是自动识别还是人工识别,无论把阈值定在哪里,那些阈值附近的优化行为判断总是容易引起争议的。在所有支持中文的搜索引擎中,百度也许已经是反spam做得最努力的,但中国网民在百度的搜索体验仍然每天被spam严重破坏1500万次以上(spam网页出现在搜索结果前10名)。因为中文spam面广量多,因为百度反spam打击也面广量多,即使阈值附近的争议网址只占很少的几个百分点,也可能导致每天有几十个网站有资格对于被惩罚表示异议,这不是百度愿意看到的,但现实点说,无法指望短时间内大幅度减少这种问题,也无法指望能人工一一回复每个提出异议的网站。

另外,对于加入百度搜索联盟并且达到一定搜索量的网站,我们有一个优待政策:在发现自己被降权后可以申请立即复查一次,如果复查发现网站上已没有spam 行为,则可以安排尽快取消降权。但这个权利只能用一次,一旦该网站在例行检查、网友举报、或不定期复查中被再次发现spam,那么无论谁也救不了它了。

caoz:hao123的发展思路是什么?第一,如果想加入新站点,目前是什么政策?据说收费了?费率多少?第二,以前被收录的站点会不会有政策处理上的变化?这是他们很关心的问题。

9238:

详细的发展思路是商业机密,我不能在此公开。但可以回答你一个具体的问题,所谓hao123已改为收费登录那是假的,每个频道只是卖少量广告(百度对广告的控制极严,没有在hao123原有基础上增加任何flash或banner,每个频道广告链接原则上不超过5个,不达到一定质量要求的网站即使广告也不卖给它,负责hao123用户体验的员工对广告有一票否决权),但现在肯定没有全面收费,今后的一段时间内也没有这个打算。以前被收录的站点不会有处理策略的变化,hao123的用户体验或者被收录网站的质量是挑选和更新的唯一标准。

caoz:百度mp3搜索的策略与mp3音乐站长群的矛盾如何化解

9238:

迄今为止百度的mp3信息几乎都是从百度的库中提取出来的,而百度的spider一直遵守国际通行的robots协议,不愿意被mp3信息的站长只要写一句robots协议就能阻止百度spider再收集信息(以前收集的信息需要等一段时间被更新后才消失),在百度的用户帮助信息中提供了详细的robots协议写作教程:

caoz:不知道百度对故意重复的定义是什么,比如donews首页的标题,有大量的it重复出现,是否算做故意重复呢?又比如前几天突然被降权的 9flash.com。他在页面里所重复的“flash”关键词,是不是属于“故意”面向搜索引擎做的呢?我们可以这么测试一下,把“flash电影”和 “电影”两个词比较,可以等同吗?不等同说明flash这个词在这里,是必要修饰词,把“flash音乐”和“音乐”两个词比较,可以等同吗?不等同说明 flash这个词在这里,是个必要的修饰词,下面的不用解释了,我觉得这个其实很容易理解,如果在对方站点里出现的某些关键词在该站点的内容和连接表述中,属于必要修饰词,并且该关键词所出现的段落和连接有其正确的表述价值,那么这种重复,就不能说是“故意重复”,我不知道百度认同否?

9238:

反spam的唯一目的是提高用户搜索体验。我们不会为了反spam而反spam,不会对所有违反规则的网站施加相同的惩罚,关键在于,用户查看某个关键词的搜索结果时,你的网站对用户是否有价值、这个价值所否值得你排在那个位置?

即使donews对it重复了,如果在it这个关键词的搜索结果中没有排在非常不该排的位置,没有对用户搜索体验造成明显破坏,那么理想状态下donews仍不会受惩罚。9flash如果只对flash关键词优化,那么不太容易受到惩罚,但如果对电影关键词优化,那么很容易受到惩罚。

明白的说,网站spam与否是网站的*,百度无权干涉也没兴趣理睬,但如果哪个网站的行为或效果破坏了中国网民在百度搜索的体验,那么百度也有升级算法、降权、直至拒绝收录这个网站的权利和兴趣。其实各位站长完全没必要把百度怎么想当一回事,站长们只要把百度的搜索用户当一回事就行了,只要你的网站对用户有搜索价值,百度急着升级算法把你排到合适的位置都来不及呢,哪里敢把你降权什么的呢。

caoz: 故意制造大量链接指向某一网址的行为。

我觉得这个条款简直可以让所有的站点纳入作弊的范畴。

百度有个联盟,把代码投放到千万个站点上,算不算“故意制造大量连接指向某一网址”?这个是个玩笑,但是事实是,所有的站长,特别是那些没有能力做大幅度广告预算的个人站点,他们的网络推广途径的重要步骤,就是和大量的不同站点交换连接,交换连接,不就是“故意制造大量链接指向某一网址的行为”吗?这是其一。如果我做了一个站点,我又申请了blog,我又申请了donews,我又申请了什么什么,我又泡论坛,那么我肯定会把我的站点连接放在每个我能放网络连接的地方告诉大家,比如论坛签名档,比如blog的连接,比如donews个人介绍,等等,有没有搜索引擎我都会这么干,站长怎么发展流量?坐等吗?这是其二。商业公司要发新闻稿,公关稿,网络时代了,网络媒体也很重视,一个稿子发新浪搜狐网易千龙天极等等等等,每个稿子上都会有这个公司的连接,又是故意制造大量连接指向同一网址。这是其三。请百度的朋友解释一下,怎么叫“不故意制造大量连接呢”,做好站点,放在那里,等别人连接或者干脆不要外部连接,也许只有国家*机关的网站会这样。

9238:上一个回答也能用在这里吧?谁爱做链接就做吧,但别针对与自己网站内容不相关的关键词做,即使相关的关键词,也别排到特别不合适的位置去。其实,百度能自动过滤不少可疑链接,所以某些制造链接的行为根本不会受到惩罚,因为对排名不会有任何影响。

caoz:有链接指向作弊网站的网站,负连带责任,也会被认为是作弊

这个最狠,简直是连坐,大清朝倒台后好象就不兴这个了。不过互连网本身就是由大量的连接组成的,这个方式搞下去,恐怕是人人自危吧,我这么说吧,a站作弊(证据确凿,验明正身),b站上不巧给a站做了连接,那么b站被认为是作弊,那么c站上偏偏也给b站做了连接,得,既然b站已经被认定也是作弊,道理同样,c站指向作弊站点,也是作弊,d站又有c站连接,惨了,这么连下去,和百度的spider没啥区别(相当于倒过来爬);洪桐县里没好人,互联网上没好站,大家彼此彼此。

其实百度真要这么搞也可以,每天公布一个封杀作弊站点列表,并给相关连接站点一天的取消连接的准备期,这样站长们就会每天上来看谁是最新的倒霉蛋,看看在不在自己站点的友情连接里,并且用最短的时间和对方划清界限!消除连接,以免殃及自身不是。

9238:

这条规则,是针对某些拥有一大批域名互相链接作弊的人。从百度中降权或消失对于每个中文网站都是大事,我们不会轻易的批量惩罚的,事实上只有在对某些网站之间的关系相当有把握时才会激活这个惩罚规则,而且,虽然批量链接作弊是机器自动识别的,但识别出的每一个网站在被正式惩罚前都会经过人工验证,几乎不可能误杀。

普通的友情链接再多也不会受惩罚,但仅限链接所用文字是合适的网站名,如果用关键词做链接,则很容易被识别为spam。