bs4基操
程序员文章站
2022-05-02 07:53:30
...
-环境安装
- pip install lxml
- pip install bs4
- BeautifulSoup对象的实例化:
- BeautifulSoup(fp,‘lxml’):用来将本地存储的html文档中的数据进行解析
- BeautifulSoup(page_text,‘lxml’):用来将互联网上请求到的页面源码数据进行解析
- 标签定位:
- soup.tagName:只可以定位到第一次出现的tagName标签
from bs4 import BeautifulSoup
fp = open('./test.html','r')
soup = BeautifulSoup(fp,'lxml')
soup.p
- soup.find(‘tagName’,attrName=‘value’)属性定位,返回的是参数
soup.find('a',id='feng')
- soup. findAll:跟find一样用作属性定位,只不过findAll返回的是列表
soup. findAll('a',id='feng')
- soup.select(‘选择器’):
- 类选择器
- id选择器
- 层级选择器
大于:号表示层级
空格:表示多个层级
soup.select(' .tang > ul > li ')
- 取数据
- .text:返回的是该标签下所有的文本内容
- .string:返回的是该标签直系的文本内容
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200422152000749.png
- 取属性:
- tag[‘attrName’]