Python爬虫10-页面解析数据提取思路方法与简单正则应用
程序员文章站
2022-04-14 18:33:32
GitHub代码练习地址:正则1:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py一、页面解析和数据提取 ①结构化数据: 先有的结构,在谈数据 JSON文件 JSON Path 转换成Python类型进行 ......
github代码练习地址:正则1:https://github.com/neo-ml/pythonpractice/blob/master/spiderprac15_re1.py
一、页面解析和数据提取
①结构化数据: 先有的结构,在谈数据
json文件
json path
转换成python类型进行操作(json类)
xml文件
转换成python类型(xmltodict)
xpath
css选择器
正则
②非结构化数据:先有数据,再谈结构
文本
电话号码
邮箱地址
通常处理此类数据,使用正则表达式
html文件
正则
xpath
css选择器
二、正则简单应用
python中正则模块是re
使用大致步骤:
1. compile函数将正则表达式的字符串编译为一个pattern对象
2. 通过pattern对象的一些列方法对文本进行匹配,匹配结果是一个match对象
3. 用match对象的方法,对结果进行操纵