Python 进阶学习笔记之一：内置常用类型及方法

程序员文章站 2022-06-04 09:02:54

...

接下来会逐步写几篇 Python 的笔记文章，用来记录最近读取 Python 官方文档获得新的收获，笔记文章会尽量从日常实用编码的角度进行记录，而不是进行基础知识的堆叠。
文章会组成一个系列，如果过路的同仁看到，感兴趣可以查看和留言。另，本系列笔记基于 Python 3.7+，部分模块/函数涉及版本问题的，会有相应版本说明，如果想系统的研读 Python 文档，请移步官方站点 --> 传送门

@@ 含笑感谢 @@

1. 需要注意的内置函数

Python 内置函数有将近 70 个，这里只列举类常用但又稍微复杂点的，其他请参考官方文档。

breakpoint(*args, **kws)：断点函数，此函数会在调用时将你陷入调试器中。
enumerate(iterable, start=0)：返回一个枚举对象。iterable 必须是一个序列，或 iterator，或其他支持迭代的对象。 enumerate() 返回的迭代器的 next() 方法返回一个元组，里面包含一个计数值（从 start 开始，默认为 0）和通过迭代 iterable 获得的值。
exec(object[, globals[, locals]])：这个函数支持动态执行 Python 代码。object 必须是字符串或者代码对象。如果是字符串，那么该字符串将被解析为一系列 Python 语句并执行（除非发生语法错误）。1 如果是代码对象，它将被直接执行。
eval(expression, globals=None, locals=None)：expression 参数会作为一个 Python 表达式（从技术上说是一个条件列表）被解析并求值。
class frozenset([iterable])：返回一个新的 frozenset 对象，它包含可选参数 iterable 中的元素。
getattr(object, name[, default])：返回对象命名属性的值。name 必须是字符串。如果该字符串是对象的属性之一，则返回该属性的值。例如， getattr(x, ‘foobar’) 等同于 x.foobar。如果指定的属性不存在，且提供了 default 值，则返回它，否则触发 AttributeError。
hasattr(object, name)：该实参是一个对象和一个字符串。如果字符串是对象的属性之一的名称，则返回 True，否则返回 False。（此功能是通过调用 getattr(object, name) 看是否有 AttributeError 异常来实现的。）
iter(object[, sentinel])：返回一个 iterator 对象。根据是否存在第二个实参，第一个实参的解释是非常不同的。如果没有第二个实参，object 必须是支持迭代协议（有 iter() 方法）的集合对象，或必须支持序列协议（有 getitem() 方法，且数字参数从 0 开始）。如果它不支持这些协议，会触发 TypeError。如果有第二个实参 sentinel，那么 object 必须是可调用的对象。这种情况下生成的迭代器，每次迭代调用它的 next() 方法时都会不带实参地调用 object；如果返回的结果是 sentinel 则触发 StopIteration，否则返回调用结果。
next(iterator[, default])：通过调用 iterator 的 next() 方法获取下一个元素。如果迭代器耗尽，则返回给定的 default，如果没有默认值则触发 StopIteration。
zip(*iterables)：创建一个聚合了来自每个可迭代对象中的元素的迭代器，返回一个元组的迭代器，其中的第 i 个元组包含来自每个参数序列或可迭代对象的第 i 个元素。

2. 内置类型

str 属于不可变序列，和Java一样多个字符串拼接避免用加号，用列表然后使用str.join(list)来得到拼接后的字符串，或者使用 io.StringIO来保证拼接字符串的高效性。
str 类中有方法 str.find((sub[, start[, end]]))，会尝试返回子串最小索引，如果只是确定是否包含子串，请使用 in操作。
str 类中方法 str.lstrip([chars])，默认移除左侧空格，chars 参数不为空，则是会移除参数值的所有组合:

> 'www.example.com'.lstrip('cmowz.')
'example.com'

str 类方法 str.replace(old, new[, count])，count 参数指替换最大次数。
str 类方法中，几乎所有默认从左至右操作字符串都方法都有一个对应方法，从右至左操作字符串，如 rstrip()、rfind()等
dict 类方法中，方法 popitem()，在 3.7 版更改: 会确保采用 LIFO 顺序。在之前的版本中，popitem() 会返回一个任意的键/值对。
dict 类方法：setdefault(key[, default])，如果字典存在键 key ，返回它的值。如果不存在，插入值为 default 的键 key ，并返回 default 。 default 默认为 None。
dict 在 3.7 版更改: 字典顺序会确保为插入顺序。更早版本，如果想实用有序的字典，请参考实用 collections.OrderedDict
由 dict.keys(), dict.values() 和 dict.items() 所返回的对象是 视图对象。该对象提供字典条目的一个动态视图，这意味着当字典改变时，视图也会相应改变。
元组构建，()、a, 、(a,)、a,b,c、(a,b,c)等都可以构建一个元组，注意决定生成元组的其实是逗号而不是圆括号，圆括号只是可选的。

3. 内置异常

在 Python 中，所有异常必须为一个派生自 BaseException 的类的实例。推荐从 Exception 类或它的某个子类而不是从 BaseException 来派生新的异常。

4. 文本处理服务

str.format() 语法的示例

# 通过名称访问参数:
> coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
> 'Coordinates: {latitude}, {longitude}'.format(**coord)
'Coordinates: 37.24N, -115.81W'
		
# 访问参数的属性:
user = User(name='hello', age=13)
'name: {0.name}, age: {0.age} '.format(user)

# 访问参数的项:
> coord = (3, 5)
> 'X: {0[0]};  Y: {0[1]}'.format(coord)
'X: 3;  Y: 5'

# 替代 %s 和 %r:
> "repr() shows quotes: {!r}; str() doesn't: {!s}".format('test1', 'test2')
"repr() shows quotes: 'test1'; str() doesn't: test2"

# 替代 %+f, %-f 和 % f 以及指定正负号:
> '{:+f}; {:+f}'.format(3.14, -3.14)  # show it always
'+3.140000; -3.140000'
> '{: f}; {: f}'.format(3.14, -3.14)  # show a space for positive numbers
' 3.140000; -3.140000'
> '{:-f}; {:-f}'.format(3.14, -3.14)  # show only the minus -- same as '{:f}; {:f}'
'3.140000; -3.140000'

# 替代 %x 和 %o 以及转换基于不同进位制的值:
> # format also supports binary numbers
> "int: {0:d};  hex: {0:x};  oct: {0:o};  bin: {0:b}".format(42)
'int: 42;  hex: 2a;  oct: 52;  bin: 101010'
> # with 0x, 0o, or 0b as prefix:
> "int: {0:d};  hex: {0:#x};  oct: {0:#o};  bin: {0:#b}".format(42)
'int: 42;  hex: 0x2a;  oct: 0o52;  bin: 0b101010'

# 使用逗号作为千位分隔符:
> '{:,}'.format(1234567890)
'1,234,567,890'

# 表示为百分数:
> points = 19
> total = 22
> 'Correct answers: {:.2%}'.format(points/total)
'Correct answers: 86.36%'

# 使用特定类型的专属格式化:
> import datetime
> d = datetime.datetime(2010, 7, 4, 12, 15, 58)
> '{:%Y-%m-%d %H:%M:%S}'.format(d)
'2010-07-04 12:15:58'

模板字符串
模板字符串支持基于 $ 的替换，使用以下规则
- $$ 为转义符号；它会被替换为单个的 $。
- $identifier 为替换占位符，它会匹配一个名为 “identifier” 的映射键。在默认情况下，“identifier” 限制为任意 ASCII 字母数字（包括下划线）组成的字符串，不区分大小写，以下划线或 ASCII 字母开头。在 $ 字符之后的第一个非标识符字符将表明占位符的终结。
- ${identifier} 等价于 $identifier。当占位符之后紧跟着有效的但又不是占位符一部分的标识符字符时需要使用，例如 "$ {noun}ification"。
  
  以下是一个如何使用模版的示例：

> from string import Template
> s = Template('$who likes $what')
> s.substitute(who='tim', what='kung pao')
'tim likes kung pao'
> d = dict(who='tim')
> Template('Give $who $100').substitute(d)
Traceback (most recent call last):
...
ValueError: Invalid placeholder in string: line 1, col 11
> Template('$who likes $what').substitute(d)
Traceback (most recent call last):
...
KeyError: 'what'
> Template('$who likes $what').safe_substitute(d)
'tim likes $what'

5. 正则表达式操作

匹配符号 *、 +、？和 {m, n} 都是贪婪匹配，也就是尽量匹配最大长度，在符号后面加一个问号，就变成了非贪婪匹配，及最小匹配，*?、+?、??、{m, n}?

re.search()
re.match()
re.split()

prog = re.compile()
prog.search()
prog.match()
prog.split()

match = re.search(pattern, string)
if match:
	process(match)
	
match.expand(template)
Match.group([group1, ...])
Match.groups(default=None)

search() vs match()：基于 re.match() 检查字符串开头，re.search() 检查字符串的任意位置。
详细内容参考链接：正则表达式操作
注：第三方模块 regex , 提供了与标准库 re 模块兼容的API接口, 同时还提供了额外的功能和更全面的Unicode支持。

Python 进阶学习笔记之一：内置常用类型及方法

1. 需要注意的内置函数

2. 内置类型

3. 内置异常

4. 文本处理服务

5. 正则表达式操作

Python 进阶学习笔记之二：常用数据类型（上）

Python 进阶学习笔记之一：内置常用类型及方法

Python 进阶学习笔记之二：常用数据类型（下）

python学习笔记-魔术方法，让自定义类更像内置类型

python学习笔记-魔术方法，让自定义类更像内置类型