Python 进阶学习笔记之一:内置常用类型及方法
接下来会逐步写几篇 Python 的笔记文章,用来记录最近读取 Python 官方文档获得新的收获,笔记文章会尽量从日常实用编码的角度进行记录,而不是进行基础知识的堆叠。
文章会组成一个系列,如果过路的同仁看到,感兴趣可以查看和留言。另,本系列笔记基于 Python 3.7+,部分模块/函数涉及版本问题的,会有相应版本说明,如果想系统的研读 Python 文档,请移步官方站点 --> 传送门
@@ 含笑感谢 @@
1. 需要注意的内置函数
Python 内置函数有将近 70 个,这里只列举类常用但又稍微复杂点的,其他请参考官方文档。
-
breakpoint(*args, **kws)
:断点函数,此函数会在调用时将你陷入调试器中。 -
enumerate(iterable, start=0)
:返回一个枚举对象。iterable 必须是一个序列,或 iterator,或其他支持迭代的对象。 enumerate() 返回的迭代器的 next() 方法返回一个元组,里面包含一个计数值(从 start 开始,默认为 0)和通过迭代 iterable 获得的值。 -
exec(object[, globals[, locals]])
:这个函数支持动态执行 Python 代码。object 必须是字符串或者代码对象。如果是字符串,那么该字符串将被解析为一系列 Python 语句并执行(除非发生语法错误)。1 如果是代码对象,它将被直接执行。 -
eval(expression, globals=None, locals=None)
:expression 参数会作为一个 Python 表达式(从技术上说是一个条件列表)被解析并求值。 -
class frozenset([iterable])
:返回一个新的 frozenset 对象,它包含可选参数 iterable 中的元素。 -
getattr(object, name[, default])
:返回对象命名属性的值。name 必须是字符串。如果该字符串是对象的属性之一,则返回该属性的值。例如, getattr(x, ‘foobar’) 等同于 x.foobar。如果指定的属性不存在,且提供了 default 值,则返回它,否则触发 AttributeError。 -
hasattr(object, name)
:该实参是一个对象和一个字符串。如果字符串是对象的属性之一的名称,则返回 True,否则返回 False。(此功能是通过调用 getattr(object, name) 看是否有 AttributeError 异常来实现的。) -
iter(object[, sentinel])
:返回一个 iterator 对象。根据是否存在第二个实参,第一个实参的解释是非常不同的。如果没有第二个实参,object 必须是支持迭代协议(有 iter() 方法)的集合对象,或必须支持序列协议(有 getitem() 方法,且数字参数从 0 开始)。如果它不支持这些协议,会触发 TypeError。如果有第二个实参 sentinel,那么 object 必须是可调用的对象。这种情况下生成的迭代器,每次迭代调用它的 next() 方法时都会不带实参地调用 object;如果返回的结果是 sentinel 则触发 StopIteration,否则返回调用结果。 -
next(iterator[, default])
:通过调用 iterator 的 next() 方法获取下一个元素。如果迭代器耗尽,则返回给定的 default,如果没有默认值则触发 StopIteration。 -
zip(*iterables)
:创建一个聚合了来自每个可迭代对象中的元素的迭代器,返回一个元组的迭代器,其中的第 i 个元组包含来自每个参数序列或可迭代对象的第 i 个元素。
2. 内置类型
- str 属于不可变序列,和Java一样多个字符串拼接避免用加号,用列表然后使用
str.join(list)
来得到拼接后的字符串,或者使用io.StringIO
来保证拼接字符串的高效性。 - str 类中有方法
str.find((sub[, start[, end]]))
,会尝试返回子串最小索引,如果只是确定是否包含子串,请使用in
操作。 - str 类中方法
str.lstrip([chars])
,默认移除左侧空格,chars 参数不为空,则是会移除参数值的所有组合:
> 'www.example.com'.lstrip('cmowz.')
'example.com'
- str 类方法
str.replace(old, new[, count])
,count 参数指替换最大次数。 - str 类方法中,几乎所有默认从左至右操作字符串都方法都有一个对应方法,从右至左操作字符串,如 rstrip()、rfind()等
- dict 类方法中,方法
popitem()
,在 3.7 版更改: 会确保采用 LIFO 顺序。 在之前的版本中,popitem() 会返回一个任意的键/值对。 - dict 类方法:
setdefault(key[, default])
,如果字典存在键 key ,返回它的值。如果不存在,插入值为 default 的键 key ,并返回 default 。 default 默认为 None。 - dict 在 3.7 版更改: 字典顺序会确保为插入顺序。更早版本,如果想实用有序的字典,请参考实用
collections.OrderedDict
- 由 dict.keys(), dict.values() 和 dict.items() 所返回的对象是 视图对象。 该对象提供字典条目的一个动态视图,这意味着当字典改变时,视图也会相应改变。
- 元组构建,()、a, 、(a,)、a,b,c、(a,b,c)等都可以构建一个元组,注意决定生成元组的其实是逗号而不是圆括号,圆括号只是可选的。
3. 内置异常
在 Python 中,所有异常必须为一个派生自 BaseException 的类的实例。推荐从 Exception 类或它的某个子类而不是从 BaseException 来派生新的异常。
4. 文本处理服务
- str.format() 语法的示例
# 通过名称访问参数:
> coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
> 'Coordinates: {latitude}, {longitude}'.format(**coord)
'Coordinates: 37.24N, -115.81W'
# 访问参数的属性:
user = User(name='hello', age=13)
'name: {0.name}, age: {0.age} '.format(user)
# 访问参数的项:
> coord = (3, 5)
> 'X: {0[0]}; Y: {0[1]}'.format(coord)
'X: 3; Y: 5'
# 替代 %s 和 %r:
> "repr() shows quotes: {!r}; str() doesn't: {!s}".format('test1', 'test2')
"repr() shows quotes: 'test1'; str() doesn't: test2"
# 替代 %+f, %-f 和 % f 以及指定正负号:
> '{:+f}; {:+f}'.format(3.14, -3.14) # show it always
'+3.140000; -3.140000'
> '{: f}; {: f}'.format(3.14, -3.14) # show a space for positive numbers
' 3.140000; -3.140000'
> '{:-f}; {:-f}'.format(3.14, -3.14) # show only the minus -- same as '{:f}; {:f}'
'3.140000; -3.140000'
# 替代 %x 和 %o 以及转换基于不同进位制的值:
> # format also supports binary numbers
> "int: {0:d}; hex: {0:x}; oct: {0:o}; bin: {0:b}".format(42)
'int: 42; hex: 2a; oct: 52; bin: 101010'
> # with 0x, 0o, or 0b as prefix:
> "int: {0:d}; hex: {0:#x}; oct: {0:#o}; bin: {0:#b}".format(42)
'int: 42; hex: 0x2a; oct: 0o52; bin: 0b101010'
# 使用逗号作为千位分隔符:
> '{:,}'.format(1234567890)
'1,234,567,890'
# 表示为百分数:
> points = 19
> total = 22
> 'Correct answers: {:.2%}'.format(points/total)
'Correct answers: 86.36%'
# 使用特定类型的专属格式化:
> import datetime
> d = datetime.datetime(2010, 7, 4, 12, 15, 58)
> '{:%Y-%m-%d %H:%M:%S}'.format(d)
'2010-07-04 12:15:58'
- 模板字符串
模板字符串支持基于 $ 的替换,使用以下规则-
$$ 为转义符号;它会被替换为单个的 $。
-
$identifier 为替换占位符,它会匹配一个名为 “identifier” 的映射键。 在默认情况下,“identifier” 限制为任意 ASCII 字母数字(包括下划线)组成的字符串,不区分大小写,以下划线或 ASCII 字母开头。 在 $ 字符之后的第一个非标识符字符将表明占位符的终结。
-
${identifier} 等价于 {noun}ification"。
以下是一个如何使用模版的示例:
-
> from string import Template
> s = Template('$who likes $what')
> s.substitute(who='tim', what='kung pao')
'tim likes kung pao'
> d = dict(who='tim')
> Template('Give $who $100').substitute(d)
Traceback (most recent call last):
...
ValueError: Invalid placeholder in string: line 1, col 11
> Template('$who likes $what').substitute(d)
Traceback (most recent call last):
...
KeyError: 'what'
> Template('$who likes $what').safe_substitute(d)
'tim likes $what'
5. 正则表达式操作
匹配符号 *、 +、 ?和 {m, n} 都是贪婪匹配,也就是尽量匹配最大长度,在符号后面加一个问号,就变成了非贪婪匹配,及最小匹配,*?、+?、??、{m, n}?
re.search()
re.match()
re.split()
prog = re.compile()
prog.search()
prog.match()
prog.split()
match = re.search(pattern, string)
if match:
process(match)
match.expand(template)
Match.group([group1, ...])
Match.groups(default=None)
search() vs match()
:基于 re.match() 检查字符串开头,re.search() 检查字符串的任意位置。
详细内容参考链接:正则表达式操作
注:第三方模块 regex , 提供了与标准库 re 模块兼容的API接口, 同时还提供了额外的功能和更全面的Unicode支持。
上一篇: 百万级数据批处理
下一篇: python爬取数据并存入excel