转载的内容如何让搜索引擎收录?
大家都知道,一个网站因转载的内容过多会导致网站无法收录,网站既不能收录,自然是没有排名,所以看到大家都在纠结这个问题的时候,我这边研究了些时间,也找到了核心的解决办法。
上图是我网站总共的文章,一个网站每一篇文章都有一个对应的页面,至于特殊情况一篇文章多个页面的占时不考虑。
上图是网站索引量的数据,从上个月到这个月,索引量翻了一倍,1900个页面1362个索引量算是非常优秀的,至于栏目和首页也就是几个页面可以忽略不计。
上图是站长之家工具查询出来的百度site数据,site出来的数据是1780篇,从上面的数据整合出来大概的算了一下,80%的文章是被收录的,而且基本是秒收录。我们是如何做到的呢?
一、 网站地图
网站地图没必要在页面的模版中用a标签标记,重点是sitemap.xml地图写到robots.txt文件里面。
另外一个是sitemap地图直接提交到百度站长平台,设置的更新时间根据你网站的更新时间而定,通常情况下,我们网站是设置每日更新一次,所以如下图所示设置即可。
最后一个就是百度的主动推送的功能,建议使用php提交,相对简单,进入百度站长平台的主动推送功能页面,把php的代码复制下载,密钥改成自己的密钥,然后链接改成你网站的所有文章链接就可以了。通常情况下,如果不是大型门户论坛,是没必要做这个程序的。
更新
不更新是肯定没有收录的,所以不管是不是抄袭还是原创,都得有更新的新页面,这样才能够让搜索引擎收录,更新最好建议定时定量,像门户、论坛可能不能做到定时定量,但至少还是在一个范围内,不可能今天一万帖,每天没有一个帖吧。
内容在200k之前
为何主题内容要在整个页面的200k之前呢,因为很多时候一个大型网站内容页面非常大,文章字数非常多,推荐的内容也非常多,而搜索引擎只能识别200k的内容,所以200k之后,搜索引擎是无法识别到的,如果每一个页面的内容都在200k之后,那么搜索引擎基本是看不到文章了,所以最后看到的内容是每一个页面都是一模一样的。当然,通常的情况下,一个网站是绝对低于200k的。我网站一篇1500文字的页面才80k。所以识别出文章内容还是毫无压力的。
时效性
我做的是一个自媒体平台网站,所以内容是每天更新,而且更新的内容时效性非常强,基本是当天的站长新闻内容,为何要时效性呢,首先时效性的内容有搜索,但没有多少内容,所以搜索引擎会重视写发出这方面内容的网站,其次一个是时效性的内容更容易满足用户的需求。
流量冲击
我们团队利用一个月的时间把久闻网推广稳定ip在800左右,顶到首页的文章平均每篇100ip以上,如果说一篇文章都有100个点击,还没有收录,那是搜索引擎的失败,比如这篇文章非常火,但还没有被收录排名的话,用户使用百度搜索不到,用户自然会使用其他搜索引擎,所以这是搜索引擎在判断收录的标准之一。
外链
最后一个是外链方面的处理,久闻网的互联网团队每天会抽2个小时以上去各大博客进行评论,评论留下的链接基本是以内页为主,所以搜索引擎抓取、别人点击基本是直接进入了内页,有人可能说了,博客评论、留言的链接大多数是加了nofollow标签,其实nofollow本是不然搜索引擎抓取的,但百度比较流氓,只做到了不传递权重,而没做到不抓取,不相信看下面我们网站的外链图片。都被记录到外链数据了,能说不抓取么?
总结:关于搜索引擎的收录问题和排名问题绝对不是单方面因素决定的,而是综合的考核来决定一个网站的收录及排名情况。也就是我们说的“权重”也可以被理解成信誉度。