欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

XML的DOM和SAX解析方式

程序员文章站 2022-06-16 12:14:34
...

昨天抽取并解析了一大批从微信钩子收取到的小程序消息,它们都是用很复杂的XML表示的。平常不是很接触XML,本文就随便说说XML的两种解析方式。

DOM解析方式

DOM即文档对象模型(document object model)。根据W3C的描述,DOM是一套用于HTML和XML文档的标准接口,它定义了文档的逻辑结构,以及访问或操作文档的方式。

DOM Parser会将文档解析为包含元素、属性和文本的树形结构(类似抽象语法树,但带有细节)。举个例子,对于如下的XML文档:

<?xml version="1.0" encoding="utf-8"?>
<wikimedia>
  <projects>
    <project name="Wikipedia" launch="2001-01-05">
      <editions>
        <edition language="English">en.wikipedia.org</edition>
        <edition language="German">de.wikipedia.org</edition>
        <edition language="French">fr.wikipedia.org</edition>
        <edition language="Spanish">es.wikipedia.org</edition>
      </editions>
    </project>
    <project name="Wiktionary" launch="2002-12-12">
      <editions>
        <edition language="English">en.wiktionary.org</edition>
        <edition language="French">fr.wiktionary.org</edition>
      </editions>
    </project>
  </projects>
</wikimedia>

DOM解析后形成的树形结构如下图所示(为了节省空间,把文本域都省略了)。

XML的DOM和SAX解析方式

用DOM解析方式处理XML文档时,要求文档必须全部加载进内存,才能形成完整的树形结构,所以文档越大,消耗的内存也就越多。如果文档大小比可用内存还大,那么DOM解析方式就无能为力了。但它允许用户可以在任何时候定位和读写文档中的任意一部分数据,也可以任意创建和删除元素,称为“随机访问”特性(当然与平时所说的线性数组的随机访问特性不太像一回事)。

SAX解析方式

SAX是Simple API for XML的缩写。与DOM不同,它是一套以流式、事件驱动的方式解析XML文档的标准接口,并且是完全开放的。不过SAX不像DOM一样有W3C制定的标准,现在一般认为Java的SAX实现(org.xml.sax)是事实上的标准。

SAX Parser总是逐行顺序扫描文档,当遇到文档的开始/结束、元素的开始/结束、处理指令、文本、注释等等情况时,会回调相应的事件处理方法。以org.xml.sax.ContentHandler处理器为例,上一节的*XML文本会按如下流程解析:

文档开始 -> startDocument()
wikimedia元素开始 -> startElement()
projects元素开始 -> startElement()
project元素开始 -> startElement() [属性 -> name="Wikipedia" launch="2001-01-05"]
editions元素开始 -> startElement()
edition元素开始 -> startElement() [属性 -> language="English"] 
文本en.wikipedia.org -> characters()
edition元素结束 -> endElement()
......
editions元素结束 -> endElement()
project元素结束 -> endElement()
......
wikimedia元素结束 -> endElement()
文档结束 -> endDocument()

由此可见,SAX解析与DOM解析最大的不同在于,SAX解析不需要将文档整体载入内存,而是读入一些、解析一些。当遇到元素结束时,就可以释放掉该元素范围内的所有数据,内存占用会显著降低,基本只与元素的嵌套深度有关系,解析速度也要优于DOM方式。所以就算文档大小比可用内存还大,用SAX解析也不用担心。

但是SAX只能顺序解析文档,完全不能随机访问。并且它对文档的全貌是无感知的,所以也就不支持修改。如果对这两点有硬性需求,就只能老老实实用DOM解析了。

dom4j

dom4j是Java环境下一个相当强大的XML框架(我这次用的就是它)。虽然名字叫dom4j,但它同时支持DOM和SAX两种解析方式,并且提供了更高级、易用的特性,如迭代器、XPath支持、XSLT等。dom4j的介绍和文档都可以在它的官网https://dom4j.github.io/找到,这里就不再废话了。

XML尚能饭否?

XML和JSON哪个更好?也许很多人都会下意识地回答JSON,但这个问题实际上无法一概而论。因为XML是一种语言,而JSON是一种数据格式,只不过XML也可以用来表达数据而已。JSON虽然轻量易用,但XML也拥有JSON不具有的高级特性。看官可以参考知乎上的这个问题获得更多信息(请忽略问题本身的倾向性)。

今天缺觉,民那晚安。