欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Ruby中XML格式数据处理库REXML的使用方法指南

程序员文章站 2022-06-24 11:23:08
以树方式使用 rexml rexml 的目的是 正好够用。在最大程度上,它能很好地完成任务。 实际上, rexml 支持两种不同样式的 xml 处理 ― “树”和“流”。...

以树方式使用 rexml
rexml 的目的是 正好够用。在最大程度上,它能很好地完成任务。 实际上, rexml 支持两种不同样式的 xml 处理 ― “树”和“流”。 第一种样式是 dom 所尝试要做的更简单的版本;第二种样式是 sax 所尝试要做的更简单的版本。 让我们先研究树样式。假设我们要提取上一个示例中的同一个地址簿文档。 下面的示例来自我所创建的经修改的 eval.rb ; 标准 eval.rb (链接到 ruby 教程)可以根据对复杂对象的表达式求值显示非常长的计算结果 ― 我的 eval.rb 在没有错误发生的情况下不作出反应:
如何使用 rexml 来引用嵌套数据

ruby> require "rexml/document"
ruby> include rexml
ruby> addrbook = (document.new file.new "address.xml").root
ruby> persons = addrbook.elements.to_a("//person")
ruby> puts persons[1].elements["address"].attributes["city"]
new york

这个表达式很普通。 .to_a() 方法创建文档中所有 <person> 元素的数组,在其它命名中它可能是有用的。 元素有点象 dom 节点,但它其实更接近于 xml 本身(而且使用起来也更简单)。 .to_a() 的参数是 xpath,在这种情况下,可以标识文档中任何地方的所有 <person> 元素。如果我们只需要第一层上的元素,可以使用:
创建匹配元素的数组

ruby> persons = addrbook.elements.to_a("/addressbook/person")

我们甚至可以更直接地将 xpath 用作 .elements 属性的重载索引。例如:
使用 rexml 来引用嵌套数据的另一种方法

ruby> puts addrbook.elements["//person[2]/address"].attributes["city"]
new york

请注意,xpath 使用基于 1 的索引,不象 ruby 和 python 数组使用基于 0 的索引。换句话说, 它仍是我们正在检查其所在城市的同一个人。通过查看 rexml 请注意,xpath 使用基于 1 的索引,不象 ruby 和 python 数组使用基于 0 的索引。换句话说, 它仍是我们正在检查其所在城市的同一个人。通过查看
用 rexml 显示元素的 xml 源代码

ruby> puts addrbook.elements["//person[2]/address"]
<address city='new york' street='118 st.' number='344' state='ny'/>
ruby> puts addrbook.elements["//person[2]/contact-info"]
<contact-info>
 <email address='robb@iro.ibm.com'/>
 <home-phone number='03-3987873'/>
</contact-info>

此外,xpath 不必只与一个元素匹配。我们已在定义 persons 数组时看见过,但另一个示例强调了这一点:
将多个元素与 xpath 匹配

ruby> puts addrbook.elements.to_a("//person/address[@state='ca']")
<address city='sacramento' street='spruce rd.' number='99' state='ca'/>
<address city='los angeles' street='pine rd.' number='1234' state='ca'/>

与此相反, .elements 属性的索引只产生 第一个匹配的元素:
当 xpath 只匹配第一次出现时

ruby> puts addrbook.elements.to_a("//person/address[@state='ca']")
<address city='sacramento' street='spruce rd.' number='99' state='ca'/>
<address city='los angeles' street='pine rd.' number='1234' state='ca'/>

也可以通过 rexml 中的 xpath 类使用 xpath 地址, 它具有诸如 .first() 、 .each() 和 .match() 这样的方法。
rexml 元素的一个独特的惯用方法是 .each 迭代器。虽然 ruby 有一个可对集合进行操作的循环结构 for , 但 ruby 程序员通常更喜欢使用迭代器方法来将控制传递给代码块。下面的两种结构是等价的, 但第二种结构有更为自然的 ruby 感觉:
通过在 rexml 中匹配 xpath 进行迭代

ruby> for addr in addrbook.elements.to_a("//address[@state='ca']")
  |  puts addr.attributes["city"]
  | end
sacramento
los angeles
ruby> addrbook.elements.each("//address[@state='ca']") {
  |  |addr| puts addr.attributes["city"]
  | }
sacramento
los angeles

以流方式使用 rexml
出于“正好够用”的目的, rexml 的树方式可能是 ruby 语言最简单的方法。 但 rexml 还提供了一种流方式,它象是 sax 的更轻量级的变体。 正如使用 sax 一样, rexml 没有向应用程序程序员提供来自 xml 文档的缺省数据结构。 相反,“listener”或“handler”类负责提供响应文档流中各种事件的一组方法。 以下是常用集合:开始标记、结束标记、遇到的元素文本等等。
虽然流方式远远没有象以树方式工作那样容易,但通常它的速度要快很多。 rexml 教程声称流方式的速度要快 1500倍。 虽然我没有尝试过对它进行基准测试,但我猜想这是一种有限的情况(我的小示例在树方式中也是瞬间完成的)。 总之,如果速度要紧,那么速度上的差异很可能是显著的。
让我们研究一个非常简单的示例,它所做的事情与上面的“列出加州城市”示例相同。 对它进行扩展以用于复杂的文档处理相对比较简单:
rexml 中 xml 文档的流处理

ruby> require "rexml/document"
ruby> require "rexml/streamlistener"
ruby> include rexml
ruby> class handler
  |  include streamlistener
  |  def tag_start name, attrs
  |    if name=="address" and attrs.assoc("state")[1]=="ca"
  |     puts attrs.assoc("city")[1]
  |    end
  |  end
  | end
ruby> document.parse_stream((file.new "address.xml"), handler.new)
sacramento
los angeles

流处理示例中要注意的一件事情是,标记属性被作为一组数组传递, 它要处理的工作比起散列要稍微多一点(但可能在库中创建会更快)。

编码问题
rexml所有文本节点中都是以utf-8编码的,所有调用的代码都要注意这一点,在程序中,传递给rexml的字符串必须是经过utf-8编码的。

rexml不可能总是正确猜测出你的文本的编码方式,所以它总是假定为utf-8编码。同时,如果你试图添加其他编码方式的文本,rexml不会发 出警告。添加者必须保证自己添加的是utf-8的文本。如果添加标准的ascii 7位编码,是没有关系的。如果使用iso8859-1文本,必须在添加之前转换为utf-8编码。可以使用text.unpack("c").pack("u")。变更编码进行输出,只有document.write()和document.to_s() 支持。如果需要输出特定编码的节点,必须用output把输出对象包装起来。

e = element.new "<a/>"
e.text = "f\xfcr"  # iso-8859-1 '??'
o = ''
e.write( output.new( o, "iso-8859-1" ) )

可以向output传递任何支持的编码。

相关标签: Ruby XML