欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Pandas处理超大规模数据

程序员文章站 2022-10-08 20:16:09
对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取; 首先进行如下操作: ......

对于超大规模的csv文件,我们无法一下将其读入内存当中,只能分块一部分一部分的进行读取;

  首先进行如下操作:

import pandas as pd
reader = pd.read_csv('data/servicelogs', iterator=true)

分块,每一块是一个chunk,之后将chunk进行拼接;
loop = true
chunksize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunksize)
        chunks.append(chunk)
    except stopiteration:
        loop = false
        print "iteration is stopped."
df = pd.concat(chunks, ignore_index=true)