【Python入门】31.常用内置模块之 XML & 抓取Yahoo天气预报信息
摘要:XML的介绍;如何用SAX解析XML文本;XML文本生成;通过解析Yahoo的XML格式文本获取其天气预报信息。
写在前面:为了更好的学习python,博主记录下自己的学习路程。本学习笔记基于廖雪峰的Python教程,如有侵权,请告知删除。欢迎与博主一起学习Pythonヽ( ̄▽ ̄)ノ
目录
常用内置模块
XML
XML 指可扩展标记语言(eXtensible Markup Language)。它是传输和存储数据常用的工具,在信息存储和描述领域十分流行。
操作XML的常用方法有:DOM和SAX。DOM占用内存大,解析慢,但可以遍历任意节点;SAX,占用内存小,解析快,但需要自己处理事件。
正常情况下,优先考虑SAX,因为DOM实在太占内存。——廖雪峰
下面介绍如何用SAX解析XML。
SAX解析XML
SAX(simple API for XML) 用事件驱动模型,也就是在解析XML的过程中触发每个事件,同时调用用户定义的回调函数来处理XML文件。SAX有两大部分:解析器和事件处理器。
解析器:负责读取XML文件,然后向事件处理器发送事件。
事件处理器:负责对每个事件做出回应,处理传递的数据。
在Python中,使用SAX解析XML十分简单。一般而言,定义好start_element
,end_element
和char_data
三个事件即可。
比如当解析器读取到一个XML的节点:
<a href="/">python</a>
会产生三个事件:
start_element
,在读取开始标签<a href="/">
时调用; char_data
,在读取数据内容python
时调用; end_element
,在读取结束标签</a>
时调用:
在对应的事件中,定义好我们想要的处理方式,然后通过ParserCreate()
生成解析器,使用parser.Parse
解析文本即可。看具体代码(以下代码除注释转自廖雪峰官网):
from xml.parsers.expat import ParserCreate # 引入解析器模块
class DefaultSaxHandler(object): # 定义一个事件处理器的类
def start_element(self, name, attrs): # 定义开始标签事件
print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))
def end_element(self, name): # 定义结束标签事件
print('sax:end_element: %s' % name)
def char_data(self, text): # 定义数据内容处理事件
print('sax:char_data: %s' % text)
# xml文本
xml = r'''<?xml version="1.0"?>
<ol>
<li><a href="/python">Python</a></li>
<li><a href="/ruby">Ruby</a></li>
</ol>
'''
handler = DefaultSaxHandler() # 创建一个事件处理器的实例
parser = ParserCreate() # 创建一个解析器
parser.StartElementHandler = handler.start_element # 给予开始标签的处理方式
parser.EndElementHandler = handler.end_element # 给予结束标签的处理方式
parser.CharacterDataHandler = handler.char_data # 给予数据内容的处理方式
parser.Parse(xml) # 解析xml文本
运行结果:
sax:start_element: ol, attrs: {}
sax:char_data:
sax:char_data:
sax:start_element: li, attrs: {}
sax:start_element: a, attrs: {'href': '/python'}
sax:char_data: Python
sax:end_element: a
sax:end_element: li
sax:char_data:
sax:char_data:
sax:start_element: li, attrs: {}
sax:start_element: a, attrs: {'href': '/ruby'}
sax:char_data: Ruby
sax:end_element: a
sax:end_element: li
sax:char_data:
sax:end_element: ol
这样就成功解析一个XML文本啦( ̄▽ ̄)/
XML生成
除了解析XML,我们还想要生成XML要怎么做?
用最简单的方法,append拼接。
L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(('some & data').encode)
L.append(r'</root>')
return ''.join(L)
如果要生成复杂的XML呢?建议你不要用XML,改成JSON。——廖雪峰
【练习】获取Yahoo天气预报信息
(练习源自廖雪峰官网)
请利用SAX编写程序解析Yahoo的XML格式的天气预报,获取天气预报:
https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml
参数woeid是城市代码,要查询某个城市代码,可以在weather.yahoo.com搜索城市,浏览器地址栏的URL就包含城市代码。
# -*- coding:utf-8 -*-
from xml.parsers.expat import ParserCreate # 引入xml解析模块
from urllib import request # 引入URL请求模块
class WeatherSaxHandler(object): # 定义一个天气事件处理器
weather = {'city':1, 'forecast':[]} # 初始化城市city和预报信息forecast
def start_element(self, name, attrs): # 定义开始标签处理事件
if name == 'yweather:location': # 获取location信息
self.weather['city'] = attrs['city']
elif name =='yweather:forecast': # 获取forecast信息
self.weather['forecast'].append({
'date':attrs['date'],
'high':attrs['high'],
'low':attrs['low']
})
def parseXml(xml_str): # 定义xml解析器
handler = WeatherSaxHandler()
parser = ParserCreate()
parser.StartElementHandler = handler.start_element
parser.Parse(xml_str) # 解析xml文本
print('City: ' + handler.weather['city']) # 打印city信息
print('Weather: ')
for x in handler.weather['forecast']: # 打印天气信息
print(x)
return handler.weather
# 测试:
URL = 'https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml'
with request.urlopen(URL, timeout=4) as f:
data = f.read()
result = parseXml(data.decode('utf-8'))
assert result['city'] == 'Beijing'
运行结果:
City: Beijing
Weather:
{'date': '30 Aug 2018', 'high': '80', 'low': '69'}
{'date': '31 Aug 2018', 'high': '84', 'low': '66'}
{'date': '01 Sep 2018', 'high': '83', 'low': '69'}
{'date': '02 Sep 2018', 'high': '80', 'low': '69'}
{'date': '03 Sep 2018', 'high': '89', 'low': '67'}
{'date': '04 Sep 2018', 'high': '88', 'low': '71'}
{'date': '05 Sep 2018', 'high': '87', 'low': '69'}
{'date': '06 Sep 2018', 'high': '83', 'low': '67'}
{'date': '07 Sep 2018', 'high': '81', 'low': '64'}
{'date': '08 Sep 2018', 'high': '80', 'low': '64'}
如果我们知道Yahoo天气预报的城市代码,修改器URL的值,就能通过这个来获取Yahoo天气预报信息了( ̄▽ ̄)/
以上就是本节的全部内容,感谢你的阅读。
下一节内容:常用内置模块之 HTMLparser
有任何问题与想法,欢迎评论与吐槽。
和博主一起学习Python吧( ̄▽ ̄)~*
上一篇: 本地的html文件怎么运行在服务器上