欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

JAVA过滤标签实现将html内容转换为文本的方法示例

程序员文章站 2023-11-26 23:21:52
本文实例讲述了java过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下: /** * 把html内容转为文本 * @param ht...

本文实例讲述了java过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:

/**
* 把html内容转为文本
* @param html 需要处理的html文本
* @param filtertags 需要保留的html标签样式
* @return
*/
public static string trimhtml2txt(string html, string[] filtertags){
    html = html.replaceall("\\<head>[\\s\\s]*?</head>(?i)", "");//去掉head
    html = html.replaceall("\\<!--[\\s\\s]*?-->", "");//去掉注释
    html = html.replaceall("\\<![\\s\\s]*?>", "");
    html = html.replaceall("\\<style[^>]*>[\\s\\s]*?</style>(?i)", "");//去掉样式
    html = html.replaceall("\\<script[^>]*>[\\s\\s]*?</script>(?i)", "");//去掉js
    html = html.replaceall("\\<w:[^>]+>[\\s\\s]*?</w:[^>]+>(?i)", "");//去掉word标签
    html = html.replaceall("\\<xml>[\\s\\s]*?</xml>(?i)", "");
    html = html.replaceall("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");
    html = html.replaceall("\\\r\n|\n|\r", " ");//去掉换行
    html = html.replaceall("\\<br[^>]*>(?i)", "\n\r");
    list<string> tags = new arraylist<string>();
    list<string> s_tags = new arraylist<string>();
    list<string> halftag = arrays.aslist(new string[]{"img","table","thead","th","tr","td"});//
    if(filtertags != null && filtertags.length > 0){
      for (string tag : filtertags) {
        tags.add("<"+tag+(halftag.contains(tag)?"":">"));//开始标签
        if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签
        s_tags.add("#replacetag"+tag+(halftag.contains(tag)?"":"replacetag#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等
        if(!"img".equals(tag)) s_tags.add("#replacetag/"+tag+"replacetag#");
      }
    }
    html = stringutils.replaceeach(html, tags.toarray(new string[tags.size()]), s_tags.toarray(new string[s_tags.size()]));
    html = html.replaceall("\\</p>(?i)", "\n\r");
    html = html.replaceall("\\<[^>]+>", "");
    html = stringutils.replaceeach(html,s_tags.toarray(new string[s_tags.size()]),tags.toarray(new string[tags.size()]));
    html = html.replaceall("\\ ", " ");
    return html.trim();
}

ps:这里再为大家推荐一款功能类似的在线工具供大家参考使用:

在线html/js/css代码过滤工具

另外,关于正则操作,这里再为大家推荐两款相关在线工具:

javascript正则表达式在线测试工具:

正则表达式在线生成工具:

更多关于java算法相关内容感兴趣的读者可查看本站专题:《java数据结构与算法教程》、《java字符与字符串操作技巧总结》、《java操作dom节点技巧总结》、《java文件与目录操作技巧汇总》和《java缓存操作技巧汇总

希望本文所述对大家java程序设计有所帮助。