Python 去除字符串中不想要的字符 全面
程序员文章站
2022-03-03 12:31:48
...
Python 如何去除字符串中不想要的字符
- 去掉两端字符串: strip(), rstrip(),lstrip()
- 删除单个固定位置字符: 切片 + 拼接
- 删除任意位置字符同时删除多种不同字符:replace(), re.sub()
- 同时删除多种不同字符:translate() py3中为str.maketrans()做映射
- 去掉unicode字符中音调
#!/usr/bin/python3
print("-----------test1------------")
#1.去掉两端字符串:strip(),rstrip(),lstrip()
s = ' -----abc123++++ '
print(s) #output: -----abc123++++
# 删除两边空字符
print(s.strip()) #output:-----abc123++++
# 删除右边空字符
print(s.rstrip()) #output: -----abc123++++
# 删除左边空字符
print(s.lstrip()) #output:-----abc123++++
# 删除两边 - + 和空字符
print(s.strip().strip('-+')) #output:abc123
print("-----------test1------------")
print("-----------test2------------")
#2.删除单个固定位置字符:切片➕拼接
s = 'abc:123'
# 字符串拼接方式去除冒号
new_s = s[:3] + s[4:] #output:abc123
print(new_s)
print("-----------test2------------")
print("-----------test3------------")
#3.删除任意位置字符同时删除多种不同字符:replace(), re.sub()
# 去除字符串中相同的字符
s = '\t\nabc\t123\tisk'
#print 会自动转译字符串中的各种转译字符
print(s) #output:abc 123 isk
#将字符串转换成列表,print不会转译,采用原生输出。这可以用来检测有时候因为各种转译字符所产生的error。
a=[s]
print(a) #output:['\t\nabc\t123\tisk']
s=s.replace('\t', '')
print(s) #output:abc123isk
a=[s]
print(a) #['\nabc123isk']
#replace只能指定替换一个字符,当需要同时替换多个字符时,采用正则匹配下,re.sub()会更方便。re.sub(pattern正则中的模式字符串, repl就是将被替换成的字符串, string是原字符串)
#另外还有两个可选参数,count说明匹配次数,flags
import re
# 去除\r\n\t字符
s = '\r\nabc\t123\nxyz'
print(re.sub('[\r\n\t]', '', s))
print("-----------test3------------")
print("-----------test4------------")
#同时删除多种不同字符:translate() py3中为str.maketrans()做映射
s = 'abc123xyz'
# a _> x, b_> y, c_> z,字符映射加密
print(str.maketrans('abcxyz', 'xyzabc')) #output:{97: 120, 98: 121, 99: 122, 120: 97, 121: 98, 122: 99} 每个字母分别映射
# translate把maketrans()映射后的数据,将其转换成字符串
print(s.translate(str.maketrans('abcxyz', 'xyzabc'))) #output:xyz123abc
print("-----------test4------------")
print("-----------test5------------")
#去掉unicode字符中音调
import sys
import unicodedata
s = "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng"
#设置匹配的remap
remap = {
# ord返回ascii值
ord('\t'): '',
ord('\f'): '',
ord('\r'): None
}
# 去除\t, \f, \r
a = s.translate(remap)
'''
通过使用dict.fromkeys() 方法构造一个字典,每个Unicode 和音符作为键,对于的值全部为None
然后使用unicodedata.normalize() 将原始输入标准化为分解形式字符
sys.maxunicode : 给出最大Unicode代码点的值的整数,即1114111(十六进制的0x10FFFF)。
unicodedata.combining:将分配给字符chr的规范组合类作为整数返回。 如果未定义组合类,则返回0。
'''
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c))) #此部分建议拆分开来理解
b = unicodedata.normalize('NFD', a)
'''
调用translate 函数删除所有重音符
'''
print(b.translate(cmb_chrs))
print("-----------test5------------")