Beautiful Soup库——HTML/XML页面解析

程序员文章站 2022-05-02 12:29:37

...

一、Beautiful Soup库的安装和导入

	————Beautiful Soup库是解析、遍历、维护“标签树”的功能库

安装：
Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4
模块导入
Beautiful Soup库，也叫beautifulsoup4 或bs4
约定引用方式如下，即主要是用BeautifulSoup类


from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块

import bs4		引入整个bs4库

二、BeautifulSoup类解析基本原理

Beautiful Soup库——HTML/XML页面解析
通过解析器，解析HTML/XML的标签树，从而取得想要的信息。
解析器：

三、BeautifulSoup类的基本元素

Beautiful Soup库——HTML/XML页面解析

四、基于bs4库的HTML内容遍历方法（调用方式：soup.标签.属性）

Beautiful Soup库——HTML/XML页面解析

标签树的下行遍历

Beautiful Soup库——HTML/XML页面解析

遍历儿子节点
for	child in soup.body.children:
	print(child)
	
遍历子孙节点
for	child in soup.body.descendants:
	print(child)

标签树的上行遍历

Beautiful Soup库——HTML/XML页面解析

注意：
Beautiful Soup库——HTML/XML页面解析
3.标签树的平行遍历

注意：

五、基于bs4库的HTML格式输出

bs4库的prettify()方法（调用方式：soup.prettify()）
bs4库的编码

六、bs4库提供的查找方法

<>.find_all(name,attrs,recursive, string, **kwargs)

name : 对标签名称的检索字符串
attrs: 对标签属性值的检索字符串，可标注属性检索
如: id="", class=""
recursive: 是否对子孙全部检索，默认True
string: <>…</>中字符串区域的检索字符串
返回一个列表类型，存储查找的结果

注意:因为查找函数较常用，故:
Beautiful Soup库——HTML/XML页面解析

Beautiful Soup库——HTML/XML页面解析

一、Beautiful Soup库的安装和导入

二、BeautifulSoup类解析基本原理

三、BeautifulSoup类的基本元素

四、基于bs4库的HTML内容遍历方法（调用方式：soup.标签.属性）

五、基于bs4库的HTML格式输出

六、bs4库提供的查找方法

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

Python3爬虫（六）解析库的使用之Beautiful Soup

Python3：使用lxml库来解析xml文件和html文件(使用xpath方式解析)

Beautiful Soup库——HTML/XML页面解析

Python3爬虫（六）解析库的使用之Beautiful Soup

想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose

想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose

爬虫2解析HTML页面-第三方库Beautiful Soup

Beautiful Soup库——HTML/XML页面解析

一、Beautiful Soup库的安装和导入

二、BeautifulSoup类解析基本原理

三、BeautifulSoup类的基本元素

四、基于bs4库的HTML内容遍历方法（调用方式：soup.标签.属性）

五、基于bs4库的HTML格式输出

六、bs4库提供的查找方法

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

Python3爬虫（六） 解析库的使用之Beautiful Soup

Python3：使用lxml库来解析xml文件和html文件(使用xpath方式解析)

Beautiful Soup库——HTML/XML页面解析

Python3爬虫（六） 解析库的使用之Beautiful Soup

想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose

想要页面自动解析从数据库获得的数据中的html标签的方法_html/css_WEB-ITnose

爬虫2解析HTML页面-第三方库Beautiful Soup

Python3爬虫（六）解析库的使用之Beautiful Soup

Python3爬虫（六）解析库的使用之Beautiful Soup