特定网站爬虫---原理篇博客分类： javalucene

程序员文章站 2024-03-26 08:34:53

...

1：http://www.shuoshuo520.com/

的小说网站爬虫，又定向简单到智能爬取数据的学习路径。

1：爬虫原理。

就是对url连接的搜索：

具体使用广度优先搜索：

特定网站爬虫---原理篇

博客分类： javalucene

访问的路径是 A - B C D E F -H G - I

使用队列保存，就是 A 先入队出对，在B C D E F 入队，在B C D E出对 H入队 F出对 G入队 H出对 I入队

目前的方法：

一个 PaserUrlUtil类解析和处理 url和html 主要用HttpClient和Jsoup

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体，处理url的去重操作

一个Crawler主程序类，宽度搜索url，知道没有可处理的为止，目标网站深度是6层也结束。

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html

查看图片附件

上一篇： JQuery幻灯片-视觉效果爆棚的全屏滚动相册博客分类： jquery js图片js幻灯片js图片轮播jquery图片轮播

下一篇： Countdown-倒计时插件博客分类： jquery jquery插件jquery倒计时倒计时插件jquery

特定网站爬虫---原理篇 博客分类： javalucene

特定网站爬虫---原理篇 博客分类： javalucene

特定网站爬虫---原理篇博客分类： javalucene

特定网站爬虫---原理篇博客分类： javalucene