欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

准备跟大家分享下我Heritrix(机器爬虫)的经验

程序员文章站 2022-04-29 14:07:05
...

   Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。
    不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL、需要抓取的网址路径格式、多长时间抓取一次(就是多长时间重新对种子URL进行抓取)、抓取网页存放路径、抓取网页抽取类等配置实现一个垂直搜索引擎爬虫。
    目前代码完成了大约80%,省去了Heritrix的UI启动方式。不过也在思考着是否将HERITRIX的UI方式进行扩展,可以通过UI远程监控控制爬虫的运行。
    想法有很多,待完成的还有很多很多。正好也验证下我对HERITRIX源代码是否已经掌握?
    加油!
    接下来将上传我heritrix的各种学习资料,不过网络上也可以获取,不过这里相对应该更齐全!

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

准备跟大家分享下我Heritrix(机器爬虫)的经验
            
    
    博客分类: 搜索引擎-爬虫-Heritrix 搜索引擎UI百度Google框架