欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

比较准确完整的中文字符正则校验

程序员文章站 2022-05-02 23:31:11
网上大多数校验中文的正则都是\u4e00-\u9fa5,经过实际测试,这个正则无法匹配中文标点,如(),。等 仔细研究了unicode的规范,本着尽量宽泛、遵循unicode分类的原则,总结了一套比较准确完整的校验规则: // http://www.unicode.org/charts/PDF/U2 ......

网上大多数校验中文的正则都是\u4e00-\u9fa5,经过实际测试,这个正则无法匹配中文标点,如(),。等

仔细研究了unicode的规范,本着尽量宽泛、遵循unicode分类的原则,总结了一套比较准确完整的校验规则:
 
// http://www.unicode.org/charts/pdf/u2000.pdf 一般标点
// http://www.unicode.org/charts/pdf/u3000.pdf cjk符号和标点
// http://www.unicode.org/charts/pdf/u4e00.pdf cjk统一表意文字
// http://www.unicode.org/charts/pdf/uff00.pdf 半宽全宽形状
string common_string_regex = "[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*";