1 回答
TA贡献1864条经验 获得超2个赞
经过一些研究,我可以得到一个解决方案。不太确定原因,但非常确定它有效。
LocalCluster、Client 及其之后的所有代码(将分发执行的代码)的实例化不得在 Python 脚本的模块级别。相反,此代码必须位于方法中或 __main__ 块内,如下所示:
import pandas as pd
import dask.dataframe as dd
import numpy as np
from dask.distributed import Client, LocalCluster
if __name__ == "__main__":
print("Generating LocalCluster...")
cluster = LocalCluster()
print("Generating Client...")
client = Client(cluster, processes=False)
print("Scaling client...")
client.scale(8)
data = dd.read_csv(
BASE_DATA_SOURCE + '/Data-BIGDATFILES-*.csv',
delimiter=';',
)
def get_min_dt():
min_dt = data.datetime.min().compute()
print("Min is {}".format())
print("Getting min dt...")
get_min_dt()
这个简单的改变带来了不同。在该问题线程中找到了解决方案:https://github.com/dask/distributed/issues/2520#issuecomment-470817810
添加回答
举报