什么是 xml ?
xml 指可扩展标记语言(extensible markup language)。
它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
- sax解析器是基于事件处理的,需要从头到尾把xml文档扫描一遍,在扫描的过程中,每次遇到一个语法结构时,就会调用这个特定语法结构的事件处理程序,向应用程序发送一个事件。
- dom是文档对象模型解析,构建文档的分层语法结构,在内存中建立dom树,dom树的节点以对象的形式来标识,文档解析文成以后,文档的整个dom树都会放在内存中。
ruby 中解析及创建 xml
rexml库的路径是: rexml/document
- 100% 由 ruby 编写。
- 可适用于 sax 和 dom 解析器。
- 它是轻量级的,不到2000行代码。
- 很容易理解的方法和类。
- 基于 sax2 api 和完整的 xpath 支持。
- 使用 ruby 安装,而无需单独安装。
以下为实例的 xml 代码,保存为movies.xml:
<collection shelf="new arrivals"> <movie title="enemy behind"> <type>war, thriller</type> <format>dvd</format> <year>2003</year> <rating>pg</rating> <stars>10</stars> <description>talk about a us-japan war</description> </movie> <movie title="transformers"> <type>anime, science fiction</type> <format>dvd</format> <year>1989</year> <rating>r</rating> <stars>8</stars> <description>a schientific fiction</description> </movie> <movie title="trigun"> <type>anime, action</type> <format>dvd</format> <episodes>4</episodes> <rating>pg</rating> <stars>10</stars> <description>vash the stampede!</description> </movie> <movie title="ishtar"> <type>comedy</type> <format>vhs</format> <rating>pg</rating> <stars>2</stars> <description>viewable boredom</description> </movie> </collection>
dom 解析器
让我们先来解析 xml 数据,首先我们先引入 rexml/document 库,通常我们可以将 rexml 在*的命名空间中引入:
#!/usr/bin/ruby -w require 'rexml/document' include rexml xmlfile = file.new("movies.xml") xmldoc = document.new(xmlfile) # 获取 root 元素 root = xmldoc.root puts "root element : " + root.attributes["shelf"] # 以下将输出电影标题 xmldoc.elements.each("collection/movie"){ |e| puts "movie title : " + e.attributes["title"] } # 以下将输出所有电影类型 xmldoc.elements.each("collection/movie/type") { |e| puts "movie type : " + e.text } # 以下将输出所有电影描述 xmldoc.elements.each("collection/movie/description") { |e| puts "movie description : " + e.text }
root element : new arrivals movie title : enemy behind movie title : transformers movie title : trigun movie title : ishtar movie type : war, thriller movie type : anime, science fiction movie type : anime, action movie type : comedy movie description : talk about a us-japan war movie description : a schientific fiction movie description : vash the stampede! movie description : viewable boredom sax-like parsing:
sax 解析器
#!/usr/bin/ruby -w require 'rexml/document' require 'rexml/streamlistener' include rexml class mylistener include rexml::streamlistener def tag_start(*args) puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}" end def text(data) return if data =~ /^\w*$/ # whitespace only abbrev = data[0..40] + (data.length > 40 ? "..." : "") puts " text : #{abbrev.inspect}" end end list = mylistener.new xmlfile = file.new("movies.xml") document.parse_stream(xmlfile, list)
tag_start: "collection", {"shelf"=>"new arrivals"} tag_start: "movie", {"title"=>"enemy behind"} tag_start: "type", {} text : "war, thriller" tag_start: "format", {} tag_start: "year", {} tag_start: "rating", {} tag_start: "stars", {} tag_start: "description", {} text : "talk about a us-japan war" tag_start: "movie", {"title"=>"transformers"} tag_start: "type", {} text : "anime, science fiction" tag_start: "format", {} tag_start: "year", {} tag_start: "rating", {} tag_start: "stars", {} tag_start: "description", {} text : "a schientific fiction" tag_start: "movie", {"title"=>"trigun"} tag_start: "type", {} text : "anime, action" tag_start: "format", {} tag_start: "episodes", {} tag_start: "rating", {} tag_start: "stars", {} tag_start: "description", {} text : "vash the stampede!" tag_start: "movie", {"title"=>"ishtar"} tag_start: "type", {} tag_start: "format", {} tag_start: "rating", {} tag_start: "stars", {} tag_start: "description", {} text : "viewable boredom"
xpath 和 ruby
我们可以使用xpath来查看xml ,xpath 是一门在 xml 文档中查找信息的语言(查看:xpath 教程)。
ruby 通过 rexml 的 xpath 类支持 xpath,它是基于树的分析(文档对象模型)。
#!/usr/bin/ruby -w require 'rexml/document' include rexml xmlfile = file.new("movies.xml") xmldoc = document.new(xmlfile) # 第一个电影的信息 movie = xpath.first(xmldoc, "//movie") p movie # 打印所有电影类型 xpath.each(xmldoc, "//type") { |e| puts e.text } # 获取所有电影格式的类型,返回数组 names = xpath.match(xmldoc, "//format").map {|x| x.text } p names
<movie title='enemy behind'> ... </> war, thriller anime, science fiction anime, action comedy ["dvd", "dvd", "dvd", "vhs"]
xslt 和 ruby
ruby 中有两个 xslt 解析器,以下给出简要描述:
这个解析器是由正义masayoshi takahash编写和维护。这主要是为linux操作系统编写的,需要以下库:
- sablot
- iconv
- expat
你可以在 ruby-sablotron 找到这些库。
xslt4r 由 michael neumann 编写。 xslt4r 用于简单的命令行交互,可以被第三方应用程序用来转换xml文档。
xslt4r需要xmlscan操作,包含了 xslt4r 归档,它是一个100%的ruby的模块。这些模块可以使用标准的ruby安装方法(即ruby install.rb)进行安装。
xslt4r 语法格式如下:
ruby xslt.rb stylesheet.xsl document.xml [arguments]
require "xslt" stylesheet = file.readlines("stylesheet.xsl").to_s xml_doc = file.readlines("document.xml").to_s arguments = { 'image_dir' => '/....' } sheet = xslt::stylesheet.new( stylesheet, arguments ) # output to stdout sheet.apply( xml_doc ) # output to 'str' str = "" sheet.output = [ str ] sheet.apply( xml_doc )
下一篇: 怕有些职工想不开