《利用Python进行数据分析》（三）

程序员文章站 2022-05-22 10:19:08

...

数据结构和序列

元组

固定长度不可改变
创建方法：逗号分隔/加括号（）
tuple将任意序列转化为元组
- 串联元组 *复制元组
count：统计某个值出现的频率

In [1]: tup = 4, 5, 6
In [2]: tup
Out[2]: (4, 5, 6)
In [3]: nested_tup = (4, 5, 6), (7, 8)
In [4]: nested_tup
Out[4]: ((4, 5, 6), (7, 8))
In [5]: tuple([4, 0, 2])
Out[5]: (4, 0, 2)
In [6]: tup = tuple('string')
In [7]: tup
Out[7]: ('s', 't', 'r', 'i', 'n', 'g')
In [8]: tup[0]
Out[8]: 's
In [9]: tup = tuple(['foo', [1, 2], True])
In [10]: tup[2] = False
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-10-c7308343b841> in <module>()
----> 1 tup[2] = False
TypeError: 'tuple' object does not support item assignment
In [11]: tup[1].append(3)
In [12]: tup
Out[12]: ('foo', [1, 2, 3], True)
In [34]: a = (1, 2, 2, 2, 3, 4, 2)
In [35]: a.count(2)
Out[35]: 4

拆分元组

拆分等式右边的值
*rest抓取任意长度不需要的变量

In [18]: tup = 4, 5, (6, 7)
In [19]: a, b, (c, d) = tup
In [20]: d
Out[20]: 7
In [29]: values = 1, 2, 3, 4, 5

In [30]: a, b, *rest = values #rest可以用其他名字代替
In [31]: a, b
Out[31]: (1, 2)
In [32]: rest
Out[32]: [3, 4, 5]

列表

列表长度可变，内容可以被修改
创建方法：方括号定义，list函数
添加元素：append insert（插入）
删除元素：pop（移除指定位） remove（去除某个值）
查询元素：in
串联列表：+ extend
排序：sort
1. 二级排序key 定义排序方法
二分搜索和维护：
1. bisect.bisect:查询元素在列表位置
2. bisect.insort:在确定位置插入元素
切片元素
1. 使用形式：方括号中使用start：stop
2. 包含起始元素，不包含结束元素
3. 第二个冒号表示步长

In [36]: a_list = [2, 3, 7, None]
In [37]: tup = ('foo', 'bar', 'baz')
In [38]: b_list = list(tup)
In [39]: b_list
Out[39]: ['foo', 'bar', 'baz']
In [40]: b_list[1] = 'peekaboo'
In [41]: b_list
Out[41]: ['foo', 'peekaboo', 'baz']
In [45]: b_list.append('dwarf'）
In [46]: b_list
Out[46]: ['foo', 'peekaboo', 'baz', 'dwarf']
In [47]: b_list.insert(1, 'red')
In [48]: b_list
Out[48]: ['foo', 'red', 'peekaboo', 'baz', 'dwarf']
In [49]: b_list.pop(2)
Out[49]: 'peekaboo'
In [50]: b_list
Out[50]: ['foo', 'red', 'baz', 'dwarf']
In [51]: b_list.append('foo')
In [52]: b_list
Out[52]: ['foo', 'red', 'baz', 'dwarf', 'foo']
In [53]: b_list.remove('foo')
In [54]: b_list
Out[54]: ['red', 'baz', 'dwarf', 'foo']
In [58]: x = [4, None, 'foo']
In [59]: x.extend([7, 8, (2, 3)])
In [60]: x
Out[60]: [4, None, 'foo', 7, 8, (2, 3)]
In [64]: b = ['saw', 'small', 'He', 'foxes', 'six']
In [61]: a = [7, 2, 5, 1, 3]
In [62]: a.sort()
In [63]: a
Out[63]: [1, 2, 3, 5, 7]
In [65]: b.sort(key=len)
In [66]: b
Out[66]: ['He', 'saw', 'six', 'small', 'foxes']
In [67]: import bisect
In [68]: c = [1, 2, 2, 2, 3, 4, 7]
In [69]: bisect.bisect(c, 2)
Out[69]: 4
In [70]: bisect.bisect(c, 5)
Out[70]: 6
In [71]: bisect.insort(c, 6)
In [72]: c
Out[72]: [1, 2, 2, 2, 3, 4, 6, 7]
In [75]: seq[3:4] = [6, 3]
In [76]: seq
Out[76]: [7, 2, 3, 6, 3, 5, 6, 0, 1]
In [79]: seq[-4:]
Out[79]: [5, 6, 0, 1]
In [80]: seq[-6:-2]
Out[80]: [6, 3, 5, 6]

序列函数

enmuerate函数：映射元素对应的位置
sorted函数：从任意序列返回一个排序系列
zip函数
1. 将多个列表元组组合成新的元组
2. 用途：结合enumerate，同时迭代多个序列
3. 行列表转换为列的列表
reversed函数：从后向前迭代一个序列

In [83]: some_list = ['foo', 'bar', 'baz']

In [84]: mapping = {}

In [85]: for i, v in enumerate(some_list):
   ....:     mapping[v] = i

In [86]: mapping
Out[86]: {'bar': 1, 'baz': 2, 'foo': 0}
In [87]: sorted([7, 1, 2, 6, 0, 3, 2])
Out[87]: [0, 1, 2, 2, 3, 6, 7]

In [88]: sorted('horse race')
Out[88]: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']
In [89]: seq1 = ['foo', 'bar', 'baz']

In [90]: seq2 = ['one', 'two', 'three']

In [91]: zipped = zip(seq1, seq2)

In [92]: list(zipped)
Out[92]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')]
In [93]: seq3 = [False, True]

In [94]: list(zip(seq1, seq2, seq3))
Out[94]: [('foo', 'one', False), ('bar', 'two', True)]
In [95]: for i, (a, b) in enumerate(zip(seq1, seq2)):
   ....:     print('{0}: {1}, {2}'.format(i, a, b))
   ....:
0: foo, one
1: bar, two
2: baz, three
In [96]: pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
   ....:             ('Schilling', 'Curt')]

In [97]: first_names, last_names = zip(*pitchers)

In [98]: first_names
Out[98]: ('Nolan', 'Roger', 'Schilling')

In [99]: last_names
Out[99]: ('Ryan', 'Clemens', 'Curt')

字典

创建字典元素：{}，:分隔键和键值
访问、插入、设定字典中的元素
删除值del关键字或pop方法（删除值同时删除键）
keys和values将顺序输出字典的键值
update将字典融合
序列创建字典：dict接受二元元组的列表
字典的值可以为Python对象，键通常是不可变的标量类型或元组。这被称为“可哈希性”
1. 用has函数检测是否可哈希

In [101]: empty_dict = {}

In [102]: d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}

In [103]: d1
Out[103]: {'a': 'some value', 'b': [1, 2, 3, 4]}
In [104]: d1[7] = 'an integer'

In [105]: d1
Out[105]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [106]: d1['b']
Out[106]: [1, 2, 3, 4]
In [108]: d1[5] = 'some value'

In [109]: d1
Out[109]: 
{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value'}

In [110]: d1['dummy'] = 'another value'

In [111]: d1
Out[111]: 
{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [112]: del d1[5]

In [113]: d1
Out[113]: 
{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [114]: ret = d1.pop('dummy')

In [115]: ret
Out[115]: 'another value'

In [116]: d1
Out[116]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
In [117]: list(d1.keys())
Out[117]: ['a', 'b', 7]

In [118]: list(d1.values())
Out[118]: ['some value', [1, 2, 3, 4], 'an integer']
In [119]: d1.update({'b' : 'foo', 'c' : 12})

In [120]: d1
Out[120]: {'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

几何

无序不可重复的元素集合（没有值只有键）
创建：set函数或者{}
集合的运算
1. union方法或者|：合并
2. intersection方法或者&：求交集
检测集合关系：issubset

In [133]: set([2, 2, 2, 1, 3, 3])
Out[133]: {1, 2, 3}

In [134]: {2, 2, 2, 1, 3, 3}
Out[134]: {1, 2, 3}
In [135]: a = {1, 2, 3, 4, 5}

In [136]: b = {3, 4, 5, 6, 7, 8}
In [137]: a.union(b)
Out[137]: {1, 2, 3, 4, 5, 6, 7, 8}

In [138]: a | b
Out[138]: {1, 2, 3, 4, 5, 6, 7, 8}
In [139]: a.intersection(b)
Out[139]: {3, 4, 5}

In [140]: a & b
Out[140]: {3, 4, 5}
In [141]: c = a.copy()

In [142]: c |= b

In [143]: c
Out[143]: {1, 2, 3, 4, 5, 6, 7, 8}

In [144]: d = a.copy()

In [145]: d &= b

In [146]: d
Out[146]: {3, 4, 5}

函数

命名空间、作用域，和局部函数

任何在函数中赋值的变量默认都是被分配到局部命名空间（local namespace）中的。局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间
在函数执行完毕之后，局部命名空间就会被销毁

返回多个值

函数可以返回多个值

def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()

匿名函数

In [177]: strings = ['foo', 'card', 'bar', 'aaaa', 'abab']
In [178]: strings.sort(key=lambda x: len(set(list(x))))

In [179]: strings
Out[179]: ['aaaa', 'foo', 'abab', 'bar', 'card']

柯里化：部分参数应用

定义一个可以调用现有函数的新函数
内置的functools模块可以用partial函数将此过程简化

def add_numbers(x, y):
    return x + y
from functools import partial
add_five = partial(add_numbers, 5)

生成器

一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续
要创建一个生成器，只需将函数中的return替换为yeild即可
生成器表达式：创建方式为，把列表推导式两端的方括号改成圆括号

def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2
In [186]: gen = squares()

In [187]: gen
Out[187]: <generator object squares at 0x7fbbd5ab4570>
In [188]: for x in gen:
   .....:     print(x, end=' ')
Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100
In [189]: gen = (x ** 2 for x in range(100))
In [191]: sum(x ** 2 for x in range(100))
Out[191]: 328350

In [192]: dict((i, i **2) for i in range(5))
Out[192]: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

itertools模块

groupby函数：根据函数的返回值对序列中的连续元素进行分组

In [193]: import itertools

In [194]: first_letter = lambda x: x[0]

In [195]: names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [196]: for letter, names in itertools.groupby(names, first_letter):
   .....:     print(letter, list(names)) # names is a generator
A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']

错误和异常处理

try/except结构

def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

《利用Python进行数据分析》（三）

数据结构和序列

元组

拆分元组

列表

序列函数

字典

几何

函数

命名空间、作用域，和局部函数

返回多个值

匿名函数

柯里化：部分参数应用

生成器

itertools模块

错误和异常处理

进行抖音数据分析后我们发现直播时这些商品更好卖

python pandas中对Series数据进行轴向连接的实例

利用Python对文件夹下图片数据进行批量改名的代码实例

Python中利用Scipy包的SIFT方法进行图片识别的实例教程

深入分析python数据挖掘 Json结构分析

什么是网站分析？SEOer可以从三大数据进行网站分析

PHP与Python进行数据交互

分析新浪微博的用户管理与大数据利用经验

三星宣称要修炼大数据分析能力

Python实现对字典分别按键(key)和值(value)进行排序的方法分析

《利用Python进行数据分析》（三）

数据结构和序列

元组

拆分元组

列表

序列函数

字典

几何

函数

命名空间、作用域，和局部函数

返回多个值

匿名函数

柯里化：部分参数应用

生成器

itertools模块

错误和异常处理

进行抖音数据分析后 我们发现直播时这些商品更好卖

python pandas中对Series数据进行轴向连接的实例

利用Python对文件夹下图片数据进行批量改名的代码实例

Python中利用Scipy包的SIFT方法进行图片识别的实例教程

深入分析python数据挖掘 Json结构分析

什么是网站分析？SEOer可以从三大数据进行网站分析

PHP与Python进行数据交互

分析新浪微博的用户管理与大数据利用经验

三星宣称要修炼大数据分析能力

Python实现对字典分别按键(key)和值(value)进行排序的方法分析

进行抖音数据分析后我们发现直播时这些商品更好卖