Beautiful Soup库——HTML/XML页面解析
程序员文章站
2022-05-02 12:29:37
...
一、Beautiful Soup库的安装和导入
————Beautiful Soup库是解析、遍历、维护“标签树”的功能库
-
安装:
Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4 -
模块导入
Beautiful Soup库,也叫beautifulsoup4 或bs4
约定引用方式如下,即主要是用BeautifulSoup类
from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块
import bs4 引入整个bs4库
二、BeautifulSoup类解析基本原理
通过解析器,解析HTML/XML的标签树,从而取得想要的信息。
解析器:
三、BeautifulSoup类的基本元素
四、基于bs4库的HTML内容遍历方法(调用方式:soup.标签.属性)
- 标签树的下行遍历
遍历儿子节点
for child in soup.body.children:
print(child)
遍历子孙节点
for child in soup.body.descendants:
print(child)
- 标签树的上行遍历
注意:
3.标签树的平行遍历
注意:
五、基于bs4库的HTML格式输出
-
bs4库的prettify()方法(调用方式:soup.prettify())
-
bs4库的编码
六、bs4库提供的查找方法
<>.find_all(name,attrs,recursive, string, **kwargs)
-
name : 对标签名称的检索字符串
-
attrs: 对标签属性值的检索字符串,可标注属性检索
如: id="", class="" -
recursive: 是否对子孙全部检索,默认True
-
string: <>…</>中字符串区域的检索字符串
返回一个列表类型,存储查找的结果
注意:因为查找函数较常用,故:
上一篇: 互联网 Java 工程师面试题之Spring(一)
下一篇: 多线程并发——闭锁,珊栏,信号量
推荐阅读
-
小白学 Python 爬虫(21):解析库 Beautiful Soup(上)
-
Python3爬虫(六) 解析库的使用之Beautiful Soup
-
Python3:使用lxml库来解析xml文件和html文件(使用xpath方式解析)
-
Beautiful Soup库——HTML/XML页面解析
-
Python3爬虫(六) 解析库的使用之Beautiful Soup
-
想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose
-
想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose
-
爬虫2解析HTML页面-第三方库Beautiful Soup