asp.net正则表达式删除指定的HTML标签的代码

程序员文章站 2024-01-24 18:08:40

...

如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

<(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+>

这个正则是判断HTML标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的HTML标签,这也是我摸索了很长时间才搞出来的.
(?!exp) 匹配后面跟的不是exp的位置
/?\s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除...

private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag 
// <(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@")|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 


return reg.Replace(ctx, ""); 
}

修正:
上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 \b 断言.

<(?!((/?\s?li\b)|(/?\s?ul)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 

private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag 
// <(?!((/?\s?li\b)|(/?\s?ul\b)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@"\b)|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 

return reg.Replace(ctx, ""); 
}

更多asp.net正则表达式删除指定的HTML标签的代码相关文章请关注PHP中文网！

相关标签：正则表达式 HTML标签

上一篇：获取笑话集网站笑话数据的后台代码，获取笑话后台代码_PHP教程

下一篇： in_array变量赋值被当成一个值,求解决办法

asp.net正则表达式删除指定的HTML标签的代码

asp.net正则表达式删除指定的HTML标签的代码

php清空（删除）指定目录下的文件，不删除目录文件夹的实现代码，

PHP正则表达式匹配字符串中的指定标签_PHP教程

vue删除html内容的标签样式实例

PHP正则表达式匹配字符串中的指定标签

php正则表达式的html标签匹配input,select,textarea的问题

求php从一段字符串中截取指定内容的正则表达式代码解决方案

php下删除字符串中HTML标签的函数

php中剔除html标签里的属性(可用正则表达式)

php清空（删除）指定目录下的文件，不删除目录文件夹的实现代码，_PHP教程