欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

删除html标签的工具类代码教程

程序员文章站 2022-06-27 14:45:53
删除html标签的工具类 /** * 删除html标签 * * @param inputstring * @return...

删除html标签的工具类

  /**
     * 删除html标签
     * 
     * @param inputstring
     * @return
     */
    public static string htmlremovetag(string html) {
        if (html == null)
            return null;
        string htmlstr = html; // 含html标签的字符串
        string textstr = "";
        java.util.regex.pattern p_script;
        java.util.regex.matcher m_script;
        java.util.regex.pattern p_style;
        java.util.regex.matcher m_style;
        java.util.regex.pattern p_html;
        java.util.regex.matcher m_html;

        try {
            string regex_script = "<[\\s]*?script[^>]*?>[\\s\\s]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\s]*?<\\/script>
            // }
            string regex_style = "<[\\s]*?style[^>]*?>[\\s\\s]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或]*?>[\\s\\s]*?<\\/style>
            // }
            string regex_html = "<[^>]+>"; // 定义html标签的正则表达式

            p_script = pattern.compile(regex_script, pattern.case_insensitive);
            m_script = p_script.matcher(htmlstr);
            htmlstr = m_script.replaceall(""); // 过滤script标签

            p_style = pattern.compile(regex_style, pattern.case_insensitive);
            m_style = p_style.matcher(htmlstr);
            htmlstr = m_style.replaceall(""); // 过滤style标签

            p_html = pattern.compile(regex_html, pattern.case_insensitive);
            m_html = p_html.matcher(htmlstr);
            htmlstr = m_html.replaceall(""); // 过滤html标签

            textstr = htmlstr;

        } catch (exception e) {
            // system.err.println("html2text: " + e.getmessage());
        }

        return textstr.replaceall("\\s*", "");// 返回文本字符串
    }</script[^>