2 回答
TA贡献1851条经验 获得超5个赞
Amazon S3 是一种对象存储服务,可以通过经过身份验证的 API 请求进行访问。
诸如s3fs
将 Amazon S3 呈现为文件系统之类的工具,但它们需要将此类用法转换为正常的 S3 API 调用。当在 S3 或本地 s3fs 虚拟磁盘中进行大量更新时,更新另一端可能需要一些时间,并且在高使用率情况下它们可能会变得不同步。
s3fs 保留文件缓存的事实意味着文件可能会更快地变得不同步,这取决于它返回并检查 S3 中的内容是否已更改的频率。
它基本上是在您的应用程序和 S3 之间增加了另一层复杂性。如果你能直接去,它总是会更可靠。但是,这意味着您可能需要自己实现一些有用的功能。
如果你打算在生产环境中使用它,我建议创建一个测试平台来模拟适当的使用级别,以确认所有系统都按预期工作。
TA贡献1963条经验 获得超6个赞
您可以使用 s3fs 和 fsspec 在本地缓存 S3 文件: https://filesystem-spec.readthedocs.io/en/latest/features.html#caching-files-locally
文档中的两个示例对我来说都很好。似乎您实际上有第二个选项,因为您的示例中注释掉了代码。那对你不起作用吗?
无论如何,你的第一个例子是
import pandas as pd
import fsspec
fs = fsspec.filesystem("filecache", target_protocol='s3', cache_storage='/tmp/files/', check_files=True)
with fs.open('s3://my-datasets/something/foo.csv') as file:
df = pd.read_csv(file, sep='|', header=None)
添加回答
举报