Python爬虫10-页面解析数据提取思路方法与简单正则应用

程序员文章站 2022-04-14 18:33:32

GitHub代码练习地址：正则1：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py一、页面解析和数据提取 ①结构化数据：先有的结构，在谈数据 JSON文件 JSON Path 转换成Python类型进行 ......

github代码练习地址：正则1：https://github.com/neo-ml/pythonpractice/blob/master/spiderprac15_re1.py

一、页面解析和数据提取

　　①结构化数据： 先有的结构，在谈数据
    　　json文件
          json path
          转换成python类型进行操作（json类）
    　　xml文件
          转换成python类型（xmltodict）
          xpath
          css选择器
          正则
　　 ②非结构化数据：先有数据，再谈结构
    　　　 文本
   　　   电话号码
   　　　 邮箱地址
         通常处理此类数据，使用正则表达式
    　　  html文件
        　　正则
        　　xpath
        　　css选择器

二、正则简单应用

python中正则模块是re
使用大致步骤：
　　1. compile函数将正则表达式的字符串编译为一个pattern对象
　　2. 通过pattern对象的一些列方法对文本进行匹配，匹配结果是一个match对象
　　3. 用match对象的方法，对结果进行操纵

上一篇： JavaScript第一回-来龙去脉01

下一篇：关于thinkphp5手动抛出Http异常时自定义404页面报错的问题