雨哲浅谈关于防采集而不影响收录内容篇

程序员文章站 2022-10-27 18:12:07

让站长最头痛的事，除了程序和服务器安全外，可能就要算内容被采集了。当然，现在网络本身就是资源共享，我这里不谈采集的对错，只是就防采集说说个人看法。一...

让站长最头痛的事，除了程序和服务器安全外，可能就要算内容被采集了。当然，现在网络本身就是资源共享，我这里不谈采集的对错，只是就防采集说说个人看法。

一、如何分辨搜索爬虫
以前，在网上看到过关于用asp代码来捕捉搜索爬虫的代码，通过代码把爬虫的访问记录记录到文件。就此代码（原作者未知）我作了修改，加入程序中防采集。现做成函数，直接在页面中调用。

复制代码代码如下:

 function checksearchrobots(searchrobotsagent)  
 checksearchrobots = false  
 '自定义搜索爬虫，因篇幅关系，这里只是加入国内主要搜索引擎爬虫部分记录  
        dim searchrobots:searchrobots="baidu@baidu|google@google|crawler@alexa|yahoo@yahoo|sohu@sohu|msn@msn|qihoobot@qihoo"  
        dim arrsearchrobots,arrsearchrobots2,searchrobotstrue,searchrobotsname,isearchrobots  
        searchrobotstrue = false  
        arrsearchrobots = split(searchrobots,chr(124))  
        for isearchrobots = 0 to ubound(arrsearchrobots)  
                arrsearchrobots2 = split(arrsearchrobots(isearchrobots),"@")  
                if instr(lcase(searchrobotsagent),lcase(arrsearchrobots2(0))) > 0 then  
                        searchrobotstrue=true:searchrobotsname=arrsearchrobots2(1):exit for  
                end if  
        next  
        if searchrobotstrue and len(searchrobotsname)>0 then'如果是爬虫,就更新爬虫信息  
   checksearchrobots = true  
        end if  
end function 

将以上代码放在asp程序中（具体如何放置请参考相关文章），然后在需要调用的地方作如下调用： if checksearchrobots(searchrobotsagent) = false then
response.write "非搜索引擎，可作部分限制！" '这里可以加入判断指定时间的刷新次数，比如在正常情况下，访问速度是n次/分，如果超过这个次数（超常规访问）就可以限制了。
end if
二、限制超常规访问。
下面说说如何限制别人的超常规访问。下面代码来源于互联网（原作者未能找到）。我作了部分修改和说明。

复制代码代码如下:

sub checkappeal() 
 dim appealnum,appealcount 
 appealnum=10 '同一ip60秒内请求限制次数 
 '雨哲[yz81.com]站长测试结果一，如果限制为10次，动易采集结果,一分钟能采集成功12篇，失败8篇。 
 '雨哲[yz81.com]站长测试结果二，如果限制为8次，动易采集结果,一分钟能采集成功9篇，失败11篇。 
 appealcount=request.cookies(appealcookies)  
 if appealcount="" then 
  response.cookies(appealcookies)=1 
  appealcount=1 
  response.cookies(appealcookies).expires=dateadd("s",60,now()) 
 else 
  response.cookies(appealcookies)=appealcount+1 
  response.cookies(appealcookies).expires=dateadd("s",60,now()) 
 end if 
 if int(appealcount)>int(appealnum) then 
  response.write "兄弟，爬了这么久，歇会儿吧，别累坏了身体！" 
  '这里的提示完全可以自定义，我的做法是另外转到一个和当前文章模板完全一致的页面，当然内容是自定义的。 
  '有兴趣的朋友也可以采集<a class="channel_keylink" href="http://www.yuzhe.name">雨哲</a>在线的http://www.yz81.com/wanzhuan/频道下面的文章。 
  response.end 
 end if 
end sub 

将以上代码放在asp程序中（具体如何放置请参考相关文章），然后在需要调用的地方作如下调用：
call checkappeal()

上一篇：装睡着了

下一篇： ASP 游标参数详解(ASP记录集)第1/2页