XML的DOM和SAX解析方式

程序员文章站 2022-06-16 12:14:34

...

昨天抽取并解析了一大批从微信钩子收取到的小程序消息，它们都是用很复杂的XML表示的。平常不是很接触XML，本文就随便说说XML的两种解析方式。

DOM解析方式

DOM即文档对象模型（document object model）。根据W3C的描述，DOM是一套用于HTML和XML文档的标准接口，它定义了文档的逻辑结构，以及访问或操作文档的方式。

DOM Parser会将文档解析为包含元素、属性和文本的树形结构（类似抽象语法树，但带有细节）。举个例子，对于如下的XML文档：

<?xml version="1.0" encoding="utf-8"?>
<wikimedia>
  <projects>
    <project name="Wikipedia" launch="2001-01-05">
      <editions>
        <edition language="English">en.wikipedia.org</edition>
        <edition language="German">de.wikipedia.org</edition>
        <edition language="French">fr.wikipedia.org</edition>
        <edition language="Spanish">es.wikipedia.org</edition>
      </editions>
    </project>
    <project name="Wiktionary" launch="2002-12-12">
      <editions>
        <edition language="English">en.wiktionary.org</edition>
        <edition language="French">fr.wiktionary.org</edition>
      </editions>
    </project>
  </projects>
</wikimedia>

DOM解析后形成的树形结构如下图所示（为了节省空间，把文本域都省略了）。

用DOM解析方式处理XML文档时，要求文档必须全部加载进内存，才能形成完整的树形结构，所以文档越大，消耗的内存也就越多。如果文档大小比可用内存还大，那么DOM解析方式就无能为力了。但它允许用户可以在任何时候定位和读写文档中的任意一部分数据，也可以任意创建和删除元素，称为“随机访问”特性（当然与平时所说的线性数组的随机访问特性不太像一回事）。

SAX解析方式

SAX是Simple API for XML的缩写。与DOM不同，它是一套以流式、事件驱动的方式解析XML文档的标准接口，并且是完全开放的。不过SAX不像DOM一样有W3C制定的标准，现在一般认为Java的SAX实现（org.xml.sax）是事实上的标准。

SAX Parser总是逐行顺序扫描文档，当遇到文档的开始/结束、元素的开始/结束、处理指令、文本、注释等等情况时，会回调相应的事件处理方法。以org.xml.sax.ContentHandler处理器为例，上一节的*XML文本会按如下流程解析：

文档开始 -> startDocument()
wikimedia元素开始 -> startElement()
projects元素开始 -> startElement()
project元素开始 -> startElement() [属性 -> name="Wikipedia" launch="2001-01-05"]
editions元素开始 -> startElement()
edition元素开始 -> startElement() [属性 -> language="English"] 
文本en.wikipedia.org -> characters()
edition元素结束 -> endElement()
......
editions元素结束 -> endElement()
project元素结束 -> endElement()
......
wikimedia元素结束 -> endElement()
文档结束 -> endDocument()

由此可见，SAX解析与DOM解析最大的不同在于，SAX解析不需要将文档整体载入内存，而是读入一些、解析一些。当遇到元素结束时，就可以释放掉该元素范围内的所有数据，内存占用会显著降低，基本只与元素的嵌套深度有关系，解析速度也要优于DOM方式。所以就算文档大小比可用内存还大，用SAX解析也不用担心。

但是SAX只能顺序解析文档，完全不能随机访问。并且它对文档的全貌是无感知的，所以也就不支持修改。如果对这两点有硬性需求，就只能老老实实用DOM解析了。

dom4j

dom4j是Java环境下一个相当强大的XML框架（我这次用的就是它）。虽然名字叫dom4j，但它同时支持DOM和SAX两种解析方式，并且提供了更高级、易用的特性，如迭代器、XPath支持、XSLT等。dom4j的介绍和文档都可以在它的官网https://dom4j.github.io/找到，这里就不再废话了。

XML尚能饭否？

XML和JSON哪个更好？也许很多人都会下意识地回答JSON，但这个问题实际上无法一概而论。因为XML是一种语言，而JSON是一种数据格式，只不过XML也可以用来表达数据而已。JSON虽然轻量易用，但XML也拥有JSON不具有的高级特性。看官可以参考知乎上的这个问题获得更多信息（请忽略问题本身的倾向性）。

今天缺觉，民那晚安。

上一篇： Flink之自定义Source

下一篇： PHP读取超大文件的实例代码

XML的DOM和SAX解析方式

DOM解析方式

SAX解析方式

dom4j

XML尚能饭否？

javascript解析ajax返回的xml和json格式数据实例详解

jQuery解析返回的xml和json方法详解

mysql清空表数据的两种方式和区别解析

Python通过DOM和SAX方式解析XML的应用实例分享

Java下3中XML解析 DOM方式、SAX方式和StAX方式

Dom属性和HTML属性的区别解析

Android中使用sax解析xml文件的方法

django反向解析和正向解析的方式

java解析xml字符串如何解析（解析xml字符串的方式）

java操作(DOM、SAX、JDOM、DOM4J)xml方式的四种比较与详解