我正在尝试使用 python 中的雪花包创建一个熊猫数据框。我运行一些查询sf_cur = get_sf_connector()sf_cur.execute("USE WAREHOUSE Warehouse;")sf_cur.execute("""select Query""")print('done')输出大约为 21k 行。然后使用df = pd.DataFrame(sf_cur.fetchall())即使只有 100 行的限制样本,也需要永远。有没有办法优化这一点,理想情况下,更大的查询将在循环中运行,因此处理更大的数据集将是理想的。
1 回答
繁星点点滴滴
TA贡献1803条经验 获得超3个赞
由于将fetchall()所有结果复制到内存中,您应该尝试直接遍历游标对象并将其映射到 for 块内的数据框
cursor.execute(query)
for row in cursor:
#build the data frame
其他示例,只是为了显示:
query = "Select ID from Users"
cursor.execute(query)
for row in cursor:
list_ids.append(row["ID"])
添加回答
举报
0/150
提交
取消