java爬虫Jsoup简单学习
程序员文章站
2022-05-03 14:00:44
啥是jsoup? jsoup我就不巴拉巴拉了,具体介绍百度或者去官网查看。 jsoup怎么用? jsoup和jquery的操作相似,下面简单使用一下。 使用jsoup大概也就以下几个步骤: 实例 这是项目结构也就普通的一个测试项目,需要导入jsoup-x.xx.x.jar包,然后建一个实体类。 我们 ......
啥是jsoup?
jsoup我就不巴拉巴拉了,具体介绍百度或者去官网查看。
jsoup怎么用?
jsoup和jquery的操作相似,下面简单使用一下。
使用jsoup大概也就以下几个步骤:
- 获取整个html文档
- 使用选择器获取需要爬的数据节点集合
- 循环遍历使用选择器获取相应数据
实例
这是项目结构也就普通的一个测试项目,需要导入jsoup-x.xx.x.jar包,然后建一个实体类。
我们就拿这个叽歪笑话来说。
每一个笑话对应一个div。
创建一个测试main方法通过jsoup.conect(url).get();方法获取相应整个html页面
然后通过select方法。select方法跟jquery选择器类似,可以通过 .,#,属性等选择标签。
注意:这里选择器选择所有class为xh的节点也就是上文所有的笑话节点集合
然后循环节点集合
然后根据节点的class属性获取相应的节点然后text()方法获取节点文本。然后运行输出。
附上运行结果:
jsoup可玩性挺大的,过年,过节爬爬火车票啥的。简单介绍就到这儿了。
卒
推荐阅读
-
基于Java实现简单亚马逊爬虫
-
python爬虫学习之用Python抢火车票的简单小程序
-
Java 实现 HttpClients+jsoup,Jsoup,htmlunit,Headless Chrome 爬虫抓取数据
-
使用Java带你打造一款简单的英语学习系统
-
java爬虫Jsoup简单学习
-
java BigInteger大整数类 和 BigDecimal大浮点数类 解决大数问题 常用方法简单学习总结
-
activeMQ学习笔记二(ActiveMQ安装及简单java访问)
-
Java爬虫--利用HttpClient和Jsoup爬取博客数据并存入数据库
-
Java爬虫-简单解析网页内容
-
Java爬虫系列三:使用Jsoup解析HTML