我有一个由爬虫创建的表,指向存储在 s3 中的一些镶木地板文件。从 Glue 数据目录 GUI 中,我可以看到许多字段 (53)。当我打开一个 ETL 开发端点并与一个 sagemaker 笔记本连接,加载同一个表并运行 printSchema 时,我看到使用下面的代码少得多的字段 (36)。from pyspark.context import SparkContextfrom awsglue.context import GlueContext, DynamicFrame# Get the right stuffglueContext = GlueContext(SparkContext.getOrCreate())data = glueContext.create_dynamic_frame.from_catalog(database = "my_database", table_name = "my_table")print('Fields: ', len(data.schema().fields))data.printSchema()仅返回 36 个字段。谁能告诉我如何访问缺少的字段?它似乎最常发生在人口稀少的领域。编辑:AWS 论坛上这个悬而未决的问题似乎是由于同样的问题 - 显然 PySpark 试图推断它自己的架构,而不是使用爬虫发现的架构。
添加回答
举报
0/150
提交
取消