java正则匹配html片段,并取得标签中的内容
程序员文章站
2022-03-17 15:57:03
...
最近java群好友发来一个html代码,要帮忙匹配查找html代码里面特定的内容:
代码如下:
<dl> <dd> <span class="gray6">年<span class="padl27"></span>代:</span>2013年</dd> <dd> <span class="gray6">朝<span class="padl27"></span>向:</span>东北</dd> <dd> <span class="gray6">楼<span class="padl27"></span>层:</span>第10层(共33层)</dd> <dd> <span class="gray6 ">结<span class="padl27"></span>构:</span>平层</dd> <dd> <span class="gray6">装<span class="padl27"></span>修:</span>毛坯</dd> <dd> <span class="gray6">住宅类别:</span>普通住宅</dd> <dd> <span class="gray6">建筑类别:</span>板楼</dd> <dd> <span class="gray6 ">产权性质:</span>个人产权</dd> <dd> </dl>
需求为找到 span中内容为:住宅类别的中后面的内容,即获取“普通住宅”文本,通过分析发现如果直接匹配到具体的
<dd> <span class="gray6">住宅类别:</span>普通住宅</dd>
发现会有点麻烦, 因为以<dd>开头 并以</dd>结束的模式如果写的不好会匹配整个大段的html(去掉开头和结尾的dl)。所以匹配模式改为先匹配每一个dd中的内容,
则模式为:
String regex2 = "<dd.*?>([\\s\\S]*?)</dd>";
然后将匹配的dd字符串在去匹配span查找是否存在“住宅类别”文字。如果匹配说明是我们需要查找的
匹配span的模式为:
String regex3 = "<span.*?>住宅类别";
如果找到匹配的dd则将dd标签和span标签全部替换掉:思路如下:
dd=dd.replaceAll("<dd>", "");//替换开头的dd dd=dd.replaceAll("</dd>", "");//替换结束的订单 dd=dd.replaceAll("<span.*?</span>", "");//替换span标签
完整代码如下:
由于对正则不是很熟悉,纯粹的摸索。如果有更好的实现方法,往各位看官不吝赐教。
public static void main(String[] args) { String oriStr = "<dl>"+ "<dd>"+ " <span class=\"gray6\">年<span class=\"padl27\"></span>代:</span>2013年</dd>"+ "<dd>"+ " <span class=\"gray6\">朝<span class=\"padl27\"></span>向:</span>东北</dd>"+ "<dd>"+ " <span class=\"gray6\">楼<span class=\"padl27\"></span>层:</span>第10层(共33层)</dd>"+ "<dd>"+ " <span class=\"gray6 \">结<span class=\"padl27\"></span>构:</span>平层</dd>"+ "<dd>"+ " <span class=\"gray6\">装<span class=\"padl27\"></span>修:</span>毛坯</dd>"+ "<dd>"+ " <span class=\"gray6\">住宅类别:</span>普通住宅</dd>"+ "<dd>"+ " <span class=\"gray6\">建筑类别:</span>板楼</dd>"+ "<dd>"+ " <span class=\"gray6 \">产权性质:</span>个人产权</dd>"+ "<dd>"+ "</dl>"; String regex2 = "<dd.*?>([\\s\\S]*?)</dd>"; String regex3 = "<span.*?>住宅类别"; Pattern pattern2 = Pattern.compile (regex2); Pattern pattern3 = Pattern.compile (regex3); Matcher match2 = pattern2.matcher (oriStr); Matcher match3 = null; while (match2.find ()){//取的每个dd标签 String dd = match2.group (); System.out.println(dd); match3 = pattern3.matcher(dd); if(match3.find()){//找到dd中含有住宅列别的span 将没用的替换掉 dd=dd.replaceAll("<dd>", ""); dd=dd.replaceAll("</dd>", ""); dd=dd.replaceAll("<span.*?</span>", ""); System.out.println("\n\n\n\n\n找到啦......"+dd+"\n\n\n\n"); } } }
推荐阅读
-
PHP正则删除html代码中a标签并保留标签内容的方法 原创
-
php正则匹配html中带class的div并选取其中内容的方法
-
Java正则表达式如何匹配特定html标签内的内容
-
php正则匹配html中带class的div并选取其中内容的方法_PHP教程
-
php正则匹配html中带class的div并选取其中内容的方法,classdiv_PHP教程
-
php正则匹配html中带class的div并选取其中内容的方法
-
php正则匹配html中带class的div并选取其中内容的方法
-
php正则匹配html中带class的div并选取其中内容的方法,classdiv
-
java正则匹配HTML中a标签里的中文字符示例
-
PHP正则删除html代码中a标签并保留标签内容的方法 原创