为了账号安全,请及时绑定邮箱和手机立即绑定

Pyarrow 在使用 Pandas to_parquet() 时应用模式

Pyarrow 在使用 Pandas to_parquet() 时应用模式

慕运维8079593 2021-07-07 13:50:11
我有一个非常宽的数据框(20,000 列),主要由 Pandas 中的 float64 列组成。我想将这些列转换为 float32 并写入 Parquet 格式。我这样做是因为这些文件的下游用户是内存有限的小容器。我目前在 Pandas 中投射,但这在广泛的数据集上非常慢,然后写出镶木地板。是否可以在写入 to_parquet 过程本身时转换类型?下面显示了一个虚拟示例。import pandas as pdimport numpy as npimport pyarrowdf = pd.DataFrame(np.random.randn(3000, 15000)) # make dummy data setdf.columns = [str(x) for x in list(df)] # make column names string for parquetdf[list(df.loc[:, df.dtypes == float])] = df[list(df.loc[:, df.dtypes == float])].astype('float32') # cast the datadf.to_parquet("myfile.parquet") # write out the df
查看完整描述

2 回答

  • 2 回答
  • 0 关注
  • 350 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信