有没有办法使用 pyarrow parquet 数据集来读取特定的列,如果可能的话过滤数据而不是将整个文件读入数据框?
1 回答
慕桂英546537
TA贡献1848条经验 获得超10个赞
截至目前pyarrow==2.0.0,这至少是可能的pyarrow.parquet.ParquetDataset。
要读取特定的列,它的read和read_pandas方法有一个columns选项。您也可以使用pandas.read_parquet.
要读取特定行,它的__init__方法有一个filters选项。
添加回答
举报
0/150
提交
取消
