为了账号安全,请及时绑定邮箱和手机立即绑定

使用 Dask 按部分高效读取大型 csv 文件

使用 Dask 按部分高效读取大型 csv 文件

幕布斯7119047 2022-09-06 18:04:59
现在,我正在使用Dask读取大型csv文件,并对其进行一些后处理(例如,进行一些数学运算,然后通过一些ML模型进行预测并将结果写入数据库)。避免加载内存中的所有数据,我想按当前大小的块读取:读取第一个块,预测,写入,读取第二个块等。我尝试了下一个解决方案,使用和:skiprowsnrowsimport dask.dataframe as ddread_path = "medium.csv"# Read by chunkskiprows = 100000nrows = 50000res_df = dd.read_csv(read_path, skiprows=skiprows)res_df = res_df.head(nrows)print(res_df.shape)print(res_df.head())但是我得到错误:值错误:样本不够大,无法包含至少一行数据。请在调用中增加字节数sampleread_csv/read_table另外,据我所知,它将每次([False,False,...,True,...])计算二进制掩码,以查找要加载的行的所有数据。我们怎样才能更有效率地做到这一点?也许使用dask中的一些分布式或延迟函数?
查看完整描述

1 回答

?
红颜莎娜

TA贡献1842条经验 获得超12个赞

Dask数据帧将为您对数据进行分区,您无需使用nrows/skip_rows

df = dd.read_csv(filename)

如果你想挑选一个特定的分区,那么你可以使用分区访问器

part = df.partitions[i]

但是,您可能还希望并行应用函数。

df.map_partitions(process).to_csv("data.*.csv")


查看完整回答
反对 回复 2022-09-06
  • 1 回答
  • 0 关注
  • 177 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信