欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python 去除字符串中不想要的字符 全面

程序员文章站 2022-03-03 12:31:48
...

Python 如何去除字符串中不想要的字符

  • 去掉两端字符串: strip(), rstrip(),lstrip()
  • 删除单个固定位置字符: 切片 + 拼接
  • 删除任意位置字符同时删除多种不同字符:replace(), re.sub()
  • 同时删除多种不同字符:translate()        py3中为str.maketrans()做映射
  • 去掉unicode字符中音调
#!/usr/bin/python3
print("-----------test1------------")
#1.去掉两端字符串:strip(),rstrip(),lstrip()
s = '  -----abc123++++       '
print(s) #output:  -----abc123++++       
# 删除两边空字符
print(s.strip()) #output:-----abc123++++
# 删除右边空字符
print(s.rstrip()) #output:  -----abc123++++
# 删除左边空字符
print(s.lstrip()) #output:-----abc123++++     
# 删除两边 - + 和空字符
print(s.strip().strip('-+')) #output:abc123
print("-----------test1------------")
 

print("-----------test2------------")
#2.删除单个固定位置字符:切片➕拼接
s = 'abc:123'
# 字符串拼接方式去除冒号
new_s = s[:3] + s[4:] #output:abc123
print(new_s)
print("-----------test2------------")


print("-----------test3------------")
#3.删除任意位置字符同时删除多种不同字符:replace(), re.sub()
# 去除字符串中相同的字符
s = '\t\nabc\t123\tisk' 
#print 会自动转译字符串中的各种转译字符
print(s) #output:abc	123	isk
#将字符串转换成列表,print不会转译,采用原生输出。这可以用来检测有时候因为各种转译字符所产生的error。
a=[s]
print(a) #output:['\t\nabc\t123\tisk']
s=s.replace('\t', '')
print(s) #output:abc123isk
a=[s]
print(a) #['\nabc123isk']

#replace只能指定替换一个字符,当需要同时替换多个字符时,采用正则匹配下,re.sub()会更方便。re.sub(pattern正则中的模式字符串, repl就是将被替换成的字符串, string是原字符串)
#另外还有两个可选参数,count说明匹配次数,flags
import re
# 去除\r\n\t字符
s = '\r\nabc\t123\nxyz'
print(re.sub('[\r\n\t]', '', s))
print("-----------test3------------")


print("-----------test4------------")
#同时删除多种不同字符:translate()        py3中为str.maketrans()做映射
s = 'abc123xyz'
# a _> x, b_> y, c_> z,字符映射加密
print(str.maketrans('abcxyz', 'xyzabc')) #output:{97: 120, 98: 121, 99: 122, 120: 97, 121: 98, 122: 99} 每个字母分别映射
# translate把maketrans()映射后的数据,将其转换成字符串
print(s.translate(str.maketrans('abcxyz', 'xyzabc'))) #output:xyz123abc 
print("-----------test4------------")


print("-----------test5------------")
#去掉unicode字符中音调
import sys
import unicodedata
s = "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng"
#设置匹配的remap
remap = {
    # ord返回ascii值
    ord('\t'): '',
    ord('\f'): '',
    ord('\r'): None
    }
# 去除\t, \f, \r
a = s.translate(remap)
'''
  通过使用dict.fromkeys() 方法构造一个字典,每个Unicode 和音符作为键,对于的值全部为None
  然后使用unicodedata.normalize() 将原始输入标准化为分解形式字符
  sys.maxunicode : 给出最大Unicode代码点的值的整数,即1114111(十六进制的0x10FFFF)。
  unicodedata.combining:将分配给字符chr的规范组合类作为整数返回。 如果未定义组合类,则返回0。
'''
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c))) #此部分建议拆分开来理解
b = unicodedata.normalize('NFD', a)
'''
   调用translate 函数删除所有重音符
'''
print(b.translate(cmb_chrs))
print("-----------test5------------")