re模块

程序员文章站 2022-07-10 08:22:13

...

匹配标签

import re
ret = re.search('<(?P<tag_name>\w+)>\w+</(?P=tag_name)>','<h1>hello</h1>')
#还可以在分组中利用?P<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group())
print(ret.group('tag_name'))
# -------------------------
ret = re.search(r'<(\w+)>\w+</\1>','<h1>hello</h1>')
#如果不给分组起名字，也可以用\序号来找到对应的组，表说要找的内容和前面的组的内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group())
print(ret.group(1))

匹配整数

import re
ret = re.findall(r'\d+',"1-2*(60+(-40.35/5)-(-4*3))")
print(ret)
import re
ret = re.findall(r'-?\d+\.\d*|(-?\d+)',"1-2*(60+(-40.35/5)-(-4*3))")
print(ret)
ret.remove('')
print(ret)
数字匹配

数字匹配

# 3.数字匹配
# 1.匹配一段文本中的每行的时间字符串，比如’1990-07-12‘

# 1.分别取出一年的十二个月：
while True:
    cmd = input('请输入月份：>>')
    if re.match(r'^(0?[1-9]|1[0-2])$',cmd):
        print('格式正确')
    else:
        print('格式错误')

# 2.
ret =re.match(r'^(0?[1-9]|1[0-2])$','11')
print(ret.group())

# 一个月的31天
ret = re.match(r'^((0?[1-9])|((1|2)[0-9])|30|31)$','31')#从头匹配
print(ret.group())

# 匹配QQ号
while True:
    cmd = input('请输入你扣扣号：>>')
    if re.match(r'^[1-9][0-9]{4,10}$',cmd):
        print('输入正确')
    else:
        print('输入错误')

# 浮点数
ret = re.match(r'-?\d+\.?\d*','21.5')
print(ret.group())
数字匹配

爬虫练习

import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

上一篇： Shell脚本编程之（一）Shell脚本简介

下一篇：药丸曲面屏！荣耀50 Pro机模现身：四种配色高颜值

re模块

匹配标签

匹配整数

数字匹配

爬虫练习

Python用模块pytz来转换时区

Python自动化测试ConfigParser模块读写配置文件

SpringBoot 监控管理模块actuator没有权限的问题解决方法

iOS模块化开发浅析

Java编程一个随机数产生模块代码分享

ABP框架的体系结构及模块系统讲解

Python中的time模块与datetime模块用法总结

springboot 多模块将dao(mybatis)项目拆分出去

卸载VS2011 Developer Preview后Sql Server2008 R2建立数据库关系图报“找不到指定的模块”错误的解决方法

Python中functools模块的常用函数解析