根据这个问题的建议,我一直在运行一个Python应用程序,该应用程序使用AI平台使用Tensorflow运行模拟并将结果输出到csv文件。在此之后,我一直在使用Jupyter。效果很好,我增加了 VM 的大小以更快地运行它。现在,我如何添加机器以使其运行得更快,也许使用 Spark 和/或 Dataproc,或者理想情况下,更简单的方法?
1 回答
慕姐8265434
TA贡献1813条经验 获得超2个赞
AI平台笔记本基于一台机器。要使用计算机群集来处理数据,可以在 Dataproc 上使用 Jupyter 笔记本。要自动配置此配置,请使用类似于以下内容的集群:
REGION=<gce_region> gcloud beta dataproc clusters create ${CLUSTER_NAME} \ --region ${REGION} \ --optional-components ANACONDA,JUPYTER \ --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/tony/tony.sh \ --enable-component-gateway
这将提供一个 Spark 集群,该集群配置了 Jupyter 笔记本和用于在集群上运行张量流的框架 (Tony)。
有关数据过程笔记本的更多信息,请查看: https://medium.com/google-cloud/apache-spark-and-jupyter-notebooks-made-easy-with-dataproc-component-gateway-fa91d48d6a5a
有关托尼的更多信息,请查看这篇文章。
如果您正在寻找更多的无服务器方法,您还可以查看AI平台分布式训练:
https://cloud.google.com/ai-platform/training/docs/packaging-trainer
https://cloud.google.com/ai-platform/training/docs/distributed-training-containers
- 1 回答
- 0 关注
- 72 浏览
添加回答
举报
0/150
提交
取消