如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

程序员文章站 2022-06-23 23:18:47

挑战 1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据，这在读入 python 时是一个很大的数据量级。Python可以轻易地一次性地处理千兆的数据，但是当数据是损坏的和已加工的，速度就会变慢而且内存效率也会变低。总的来说，这 14 亿条数据（1,430,727,243）分散在 38 ......

挑战

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据，这在读入 python 时是一个很大的数据量级。Python可以轻易地一次性地处理千兆的数据，但是当数据是损坏的和已加工的，速度就会变慢而且内存效率也会变低。

总的来说，这 14 亿条数据（1,430,727,243）分散在 38 个源文件中，一共有 2 千 4 百万个（24,359,460）单词（和词性标注，见下方），计算自 1505 年至 2008 年。

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

Loading the data

下面所有的代码/例子都是运行在 8 GB 内存的 2016 年的 Macbook Pro。如果硬件或云实例有更好的 ram 配置，表现会更好。

1-gram 的数据是以 tab 键分割的形式储存在文件中，看起来如下：

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

每一条数据包含下面几个字段：

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

为了按照要求生成图表，我们只需要知道这些信息，也就是：

1. 这个单词是我们感兴趣的？2. 发布的年份3. 单词使用的总次数

通过提取这些信息，处理不同长度的字符串数据的额外消耗被忽略掉了，但是我们仍然需要对比不同字符串的数值来区分哪些行数据是有我们感兴趣的字段的。这就是 pytubes 可以做的工作：

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

差不多 170 秒（3 分钟）之后， one_grams 是一个 numpy 数组，里面包含差不多 14 亿行数据，看起来像这样（添加表头部为了说明）：

╒═══════════╤════════╤═════════╕│ Is_Word │ Year │ Count │╞═══════════╪════════╪═════════╡│ 0 │ 1799 │ 2 │├───────────┼────────┼─────────┤│ 0 │ 1804 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1805 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1811 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1820 │ ... │╘═══════════╧════════╧═════════╛

从这开始，就只是一个用 numpy 方法来计算一些东西的问题了：

每一年的单词总使用量

谷歌展示了每一个单词出现的百分比（某个单词在这一年出现的次数/所有单词在这一年出现的总数），这比仅仅计算原单词更有用。为了计算这个百分比，我们需要知道单词总量的数目是多少。

幸运的是，numpy让这个变得十分简单：

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！