解析HTML的Python库--Requests-HTML推荐

程序员文章站 2024-01-13 10:59:34

解析HTML的Python库--Requests-HTML推荐 HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库...

解析HTML的Python库--Requests-HTML推荐

HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库的人性化, 话不多说, 来看几个例子吧.

作者以Python官网做的例子, 在这里我用CSDN吧, 嘻嘻.

首先获取首页:

>>> from requests_html import session
>>> r = session.get('https://www.csdn.net')

获取所有连接:

 r.html.links
{'http://blog.csdn.net/sfM06sqVW55DFt1', '/nav/engineering', 'http://www.programmer.com.cn/',...}
# 由于这里连接较多 在这里仅仅粘贴一部分

获取所有绝对地址

 r.html.absolute_links
{'https://www.csdn.net/nav/iot', 'http://blog.csdn.net/sfM06sqVW55DFt1', ... ,}

使用JQuery选择器

>>> my_carousel = r.html.find('#myCarousel', first=True)
>>> print(my_carousel.text)
程序员们，你们再这样下去会没朋友的
从一份不合格的白皮书，了解蔡文胜辟谣美链背后的蹊跷
吉利花90亿美元成奔驰母公司最大股东，背后打的什么算盘？
一夜身价暴涨千倍，如何发布自己的ICO？
一个优秀的程序员是如何炼成的
Previous
Next

获取元素属性

>>> my_carousel.attrs
{'id': 'myCarousel', 'class': 'slide', 'data-ride': 'carousel'}

通过元素获取元素:

>>> my_carousel.find('a')
[, ... ,] # 元素过多 不多展示了

将HTML转换为markdown:

>>> print(about.markdown)

* [About](/about/)

  * [Applications](/about/apps/)
  * [Quotes](/about/quotes/)
  * [Getting Started](/about/gettingstarted/)
  * [Help](/about/help/)
  * [Python Brochure](http://brochure.getpython.info/)
# 这里粘贴了作者的例子, CSDN上获取的没有这个例子清晰

支持xpath解析

>>> r.html.xpath('p')
[, ,  ... ,]

上一篇： PHP读取汉字的点阵数据，php读取点阵

下一篇： PHP中header函数的用法及其注意事项详解_php实例

解析HTML的Python库--Requests-HTML推荐

解析HTML的Python库--Requests-HTML推荐

解析HTML的Python库--Requests-HTML推荐

python网络爬虫入门（三、复杂HTML的解析）

python munch库的使用解析

神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库

Python解析excel文件存入sqlite数据库的方法

PHP解析html类库simple_html_dom的转码bug

对Python3 解析html的几种操作方式小结

python解析html开发库pyquery使用方法

python爬虫的数据库连接问题【推荐】

Python下利用BeautifulSoup解析HTML的实现