Python正则表达式匹配HTML页面编码

程序员文章站 2024-01-12 13:48:10

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个： impor...

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

上一篇： pycharm 使用心得（一）安装和首次使用

下一篇：批量收缩数据库日志文件

Python正则表达式匹配HTML页面编码

Python语言实现将图片转化为html页面

注册页面的各种判断（正则表达式）_html/css_WEB-ITnose

jQuery实现HTML页面文本框模糊匹配查询（附代码）

php正则表达式的html标签匹配input,select,textarea的问题

Python正则表达式匹配HTML页面编码

php+mysql+html页面编码解决方案

正则表达式 - 一句php解析html页面的脚本问题

python正则表达式中的中文匹配例子

python抓取并保存html页面时乱码问题的

Python使用lxml模块和Requests模块抓取HTML页面的教程