Java解析和遍历html文档利器_html/css_WEB-ITnose
程序员文章站
2022-05-02 16:59:20
...
前言:几乎任何的语言都可以解析和遍历html超文本,我常用的语言就是php啦,但是我想在android客户端获取网络http的的数据,虽然可以使用php但是需要二次连接和php环境,然而就直接使用java语言去搞,那么不可能直接用java原生语言去码的啦,使用Jsoup去解析,Jsoup是java语言一款不错的html解析文档的利器!
Jsoup的简介Jsoup是java语言一款不错的html解析和遍历文档的利器。
Jsoup的优点其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
没有关闭的标签Lorem
Ipsum parses to
Lorem
Ipsum
隐式标签Table data 包装成
创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素) Jsoup常用的方法从一个URL加载一个Document 简单的get方法Document doc = Jsoup.connect("http://www.domain.com/").get();String title = doc.title(); 带头信息的post方法Document doc = Jsoup.connect("http://www..domain.com") .data("username", "Alic") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); 从文件中加载HTML文档 File file = new File("path");Document doc = Jsoup.parse(file, "UTF-8", "http://www.domian.com/"); 简单的从String加载HTML Document doc = Jsoup.parse(String html); 使用DOM方法来遍历一个文档 File file = new File("/path/index.html");Document doc = Jsoup.parse(file, "UTF-8", "http://www.domian.com/");Element content = doc.getElementById("content");//获取id为content的dom节点Elements links = content.getElementsByTag("a");//获取所有的a标签dom节点//遍历所有的a标签for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text();}Elements links = doc.select("a[href]"); //带有href属性的a元素Elements pngs = doc.select("img[src$=.png]"); //扩展名为.png的图片Element masthead = doc.select("div.masthead").first(); //class等于masthead的div标签Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素 常用的方法:见官网API文档传送Jsoup 声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。 相关文章 相关视频 专题推荐
|
上一篇: 爬虫实战爬取校花图片
下一篇: yii2 绑定框架事件
推荐阅读
-
jsoup官方解析和遍历一个HTML文档
-
使用 XPATH 和 HTML Cleaner 解析 HTML/XML(Using XPATH and HTML Cleaner to parse HTML / XML)_html/css_WEB-ITnose
-
[Java]文档及javadoc使用_html/css_WEB-ITnose
-
Atitit.html解析器的选型?jsoup?nsoup?,java?c#?.net?版本_html/css_WEB-ITnose
-
探讨,:IE浏览器中的浏览器模式 和 文档模式 区别_html/css_WEB-ITnose
-
嵌套iframe中的HTML的文档解析类型_html/css_WEB-ITnose
-
jsoup官方解析和遍历一个HTML文档
-
急急求兼容IE和火狐的网站漂浮物代码!(IE9和IE5、6、7、8解析都不一样的)_html/css_WEB-ITnose
-
XML DOM 遍历Xml文档_html/css_WEB-ITnose
-
XML DOM 遍历Xml文档_html/css_WEB-ITnose
网友评论
文明上网理性发言,请遵守 新闻评论服务协议
我要评论