特定网站爬虫---原理篇 博客分类: javalucene
程序员文章站
2024-03-26 08:34:53
...
的小说网站爬虫,又定向简单到智能爬取数据的学习路径。
1:爬虫原理。
就是对url连接的搜索:
具体使用广度优先搜索:
访问的路径是 A - B C D E F -H G - I
使用队列保存 ,就是 A 先入队 出对 ,在B C D E F 入队 ,在B C D E出对 H入队 F出对 G入队 H出对 I入队
目前的方法:
一个 PaserUrlUtil类 解析 和处理 url和html 主要用HttpClient和Jsoup
一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体,处理url的去重操作
一个Crawler主程序类,宽度搜索url,知道没有可处理的为止,目标网站 深度是6层也结束。
想队列中添加新的urlhttp://www.shuoshuo520.com/book9/ 想队列中添加新的urlhttp://www.shuoshuo520.com/book10/ 想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1 已经访问的url--http://www.shuoshuo520.com/book1/ 正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/ bookUrls-处理进入 deptvalue-==1- bookUrls--http://www.shuoshuo520.com/Book1/2.html bookUrls--http://www.shuoshuo520.com/Book1/3.html bookUrls--http://www.shuoshuo520.com/Book1/4.html bookUrls--http://www.shuoshuo520.com/Book1/5.html bookUrls--http://www.shuoshuo520.com/Book1/6.html bookUrls--http://www.shuoshuo520.com/Book1/7.html bookUrls--http://www.shuoshuo520.com/Book1/8.html