python爬虫之HTMLParser讲解

程序员文章站 2022-07-02 18:45:11

HTMLParser 需要手动下载markupbase.py放到libs里每读到一个标签处理一下 from HTMLParser import HTMLParser #...

HTMLParser

需要手动下载markupbase.py放到libs里每读到一个标签处理一下

from HTMLParser import HTMLParser
# markupbase

class MyParser(HTMLParser):
    def handle_decl(self, decl):
        HTMLParser.handle_decl(self, decl)
        print('decl %s' % decl)

    def handle_starttag(self, tag, attrs):
        HTMLParser.handle_starttag(self, tag, attrs)
        print('<' + tag + '>')

    def handle_endtag(self, tag):
        HTMLParser.handle_endtag(self, tag)
        print('')

    def handle_data(self, data):
        HTMLParser.handle_data(self, data)
        print('data %s' % data)

    #

    def handle_startendtag(self, tag, attrs):
        HTMLParser.handle_startendtag(self, tag, attrs)

    def handle_comment(self, data):
        HTMLParser.handle_comment(self, data)
        print('data %s' % data)

    def close(self):
        HTMLParser.close(self)
        print('Close')

demo = MyParser()
demo.feed(open('test.html').read())
demo.close()

python爬虫之HTMLParser讲解

上一篇： plpgsql执行块格式

下一篇：值得收藏的一些HTML,JavaScript,ASP代码

python爬虫之HTMLParser讲解

Python爬虫实战之12306抢票开源

Python爬虫框架Scrapy实战之批量抓取招聘信息

Python3中编码与解码之Unicode与bytes的讲解

零基础写python爬虫之打包生成exe文件

零基础写python爬虫之爬虫框架Scrapy安装配置

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

零基础写python爬虫之爬虫编写全记录

零基础写python爬虫之使用urllib2组件抓取网页内容

零基础写python爬虫之urllib2使用指南