An invalid XML character (Unicode: 0x10) was found in the value of attribute
程序员文章站
2022-05-28 07:59:40
...
通过SAX解析document的时候,出现了An invalid XML character (Unicode: 0x10) was found in the value of attribute的异常,找了好久发现是因为文档中有不合法的字符。
这些错误的发生是由于一些不可见的特殊字符的存在,而这些字符对于XMl文件来说又是非法的,所以XML解析器在解析时会发生异常,官方定义了XML的无效字符分为三段:
0x00 - 0x08
0x0b - 0x0c
0x0e - 0x1f
因此我在解析的时候添加上了string.replaceAll(“[\x00-\x08\x0b-\x0c\x0e-\x1f]”, “”); 来处理掉特殊的字符。
参考文章
SAX解析文档