python爬虫之HTMLParser讲解
程序员文章站
2022-07-02 18:45:11
HTMLParser
需要手动下载markupbase.py放到libs里 每读到一个标签处理一下
from HTMLParser import HTMLParser
#...
HTMLParser
需要手动下载markupbase.py放到libs里 每读到一个标签处理一下
from HTMLParser import HTMLParser # markupbase class MyParser(HTMLParser): def handle_decl(self, decl): HTMLParser.handle_decl(self, decl) print('decl %s' % decl) def handle_starttag(self, tag, attrs): HTMLParser.handle_starttag(self, tag, attrs) print('<' + tag + '>') def handle_endtag(self, tag): HTMLParser.handle_endtag(self, tag) print('') def handle_data(self, data): HTMLParser.handle_data(self, data) print('data %s' % data) # def handle_startendtag(self, tag, attrs): HTMLParser.handle_startendtag(self, tag, attrs) def handle_comment(self, data): HTMLParser.handle_comment(self, data) print('data %s' % data) def close(self): HTMLParser.close(self) print('Close') demo = MyParser() demo.feed(open('test.html').read()) demo.close()
上一篇: plpgsql执行块格式