Python在字符串中处理html和xml的方法

程序员文章站 2022-04-01 18:48:59

问题你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。解决方案如...

问题

你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<' 或者 ‘>' ，使用 html.escape() 函数可以很容易的完成。比如：

>>> s = 'elements are written as "<tag>text</tag>".'
>>> import html
>>> print(s)
elements are written as "<tag>text</tag>".
>>> print(html.escape(s))
elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.

>>> # disable escaping of quotes
>>> print(html.escape(s, quote=false))
elements are written as "&lt;tag&gt;text&lt;/tag&gt;".
>>>

如果你正在处理的是ascii文本，并且想将非ascii文本对应的编码实体嵌入进去，可以给某些i/o函数传递参数 errors='xmlcharrefreplace' 来达到这个目。比如：

>>> s = 'spicy jalapeño'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'spicy jalape&#241;o'
>>>

为了替换文本中的编码实体，你需要使用另外一种方法。如果你正在处理html或者xml文本，试着先使用一个合适的html或者xml解析器。通常情况下，这些工具会自动替换这些编码值，你无需担心。

有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你只需要使用html或者xml解析器的一些相关工具函数/方法即可。比如：

>>> s = 'spicy &quot;jalape&#241;o&quot.'
>>> from html.parser import htmlparser
>>> p = htmlparser()
>>> p.unescape(s)
'spicy "jalapeño".'
>>>
>>> t = 'the prompt is &gt;&gt;&gt;'
>>> from xml.sax.saxutils import unescape
>>> unescape(t)
'the prompt is >>>'
>>>

讨论

在生成html或者xml文本的时候，如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本，还有一些其他的工具函数比如 xml.sax.saxutils.unescapge() 可以帮助你。然而，你应该先调研清楚怎样使用一个合适的解析器。比如，如果你在处理html或xml文本，使用某个解析模块比如 html.parse 或 xml.etree.elementtree 已经帮你自动处理了相关的替换细节。

以上就是python在字符串中处理html和xml的方法的详细内容，更多关于python在字符串中处理html和xml的资料请关注其它相关文章！

相关标签： Python 字符串处理 html XML

上一篇： python中的django是做什么的

下一篇： Codeforces Round #665 (Div. 2) D. Maximum Distributed Tree（dfs）

Python在字符串中处理html和xml的方法

在Python中获取两数相除的商和余数方法

详解在Python程序中解析并修改XML内容的方法

[python] 在 python2和3中关于类继承的 super方法简要说明

在Python中操作日期和时间之gmtime()方法的使用

js中console在一行内打印字符串和对象的方法

Python将xml和xsl转换为html的方法

在Python中处理大型文件的最快方法

在python中创建列表的最佳和/或最快方法

python在TXT文件中按照某一字符串取出该字符串所在的行方法

在Python中处理字符串之isdigit()方法的使用