使用maven实现有关Jsoup简单爬虫的步骤
程序员文章站
2022-03-23 23:45:25
一、jsoup的简介jsoup 是一款java 的html解析器,可直接解析某个url地址、html文本内容。它提供了一套非常省力的api,可通过dom,css以及类似于jquery的操作方法来取出和...
一、jsoup的简介
jsoup 是一款java 的html解析器,可直接解析某个url地址、html文本内容。它提供了一套非常省力的api,可通过dom,css以及类似于jquery的操作方法来取出和操作数据
二、我们可以利用jsoup做什么
2.1从url,文件或字符串中刮取并解析html查找和提取数据,
2.2使用dom遍历或css选择器操纵html元素,属性和文本
2.3从而使我们输出我们想要的整洁文本
三、利用jsoup爬取某东示例
可以从图中看到,成功爬取某东的女装热门销量从高到低的标题,从而可以分析到销量高(或者是综合排序)在前列的标题名称。从而可以剖析出热门商品的命名规范。
四、jsoup用法
4.1先创建maven工程,在maven工程上注入依赖
4.2注入依赖后需要导入依赖,否则在程序中使用jsoup会全部报错。
4.3利用jsp的知识找出目标元素
如在某东界面我们发现, 控制目标页面的id为"plist",则我们使用
getelementbyid("plist");方法去获取到他的id
接着获取目标标题,可以由上图分析得,标题是由<em>标签所控制,因此我们需要用到
getelementsbytag("em");去捕捉到em的部分
最后循环输出他的部分即可。
五、总结
jsoup只能应用于简单的页面捕捉,在实际开发中许多网站采用ajax技术等使得模块在动态变化抑或是有反爬虫技术,因此本技术有局限性。熟悉前端jsp技术的同学应该会游刃有余。
最后附上所有代码
下一篇: C/C++中虚基类详解及其作用介绍
推荐阅读
-
使用python PIL库实现简单验证码的去噪方法步骤
-
使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
-
所谓的网页爬虫用java代码来实现,此代码适合在maven项目中使用中使用,因为,代码中的类所对应的依赖可以让maven下载。
-
使用maven实现有关Jsoup简单爬虫的步骤
-
Android Studio 爬虫 之 简单实现使用 jsoup/okhttp3 爬取购物商品信息的案例demo(附有详细步骤)
-
基于Jsoup实现的简单网络爬虫
-
java实现maven项目最简单的网络爬虫并导出爬取的数据
-
Java语言mysql数据库的访问步骤,一个简单的实例——使用DAO(数据库操作类 Data Access Object ) 实现对mysql数据库的增删改查
-
使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
-
使用Jsoup实现爬虫技术的方法介绍