我正在尝试废弃一个 XML 文件并从 XML 文件上的标签创建一个数据框。我使用 pyspark 处理 Databricks。XML文件:<?xml version="1.0" encoding="UTF-8"?><note> <shorttitle>shorttitle_1</shorttitle> <shorttitle>shorttitle_2</shorttitle> <shorttitle>shorttitle_3</shorttitle> <shorttitle>shorttitle_4</shorttitle></note>我的代码似乎从页面中删除了 XML 并从标签创建了一个列表,但是当我创建我的数据框并尝试输入所述列表时,我只看到一个包含空值的数据框。代码:from pyspark.sql.types import *from pyspark.sql.functions import *import requestsfrom bs4 import BeautifulSoupres = requests.get("http://files.fakeaddress.com/files01.xml")soup = BeautifulSoup(res.content,'html.parser')short_title = soup.find_all('shorttitle')[0:2]field = [StructField("Short_Title",StringType(), True)]schema = StructType(field)df = spark.createDataFrame(short_title, schema)输出:+-----------+|Short_Title|+-----------+| null|| null|+-----------+想要的输出:+-------------+|Short_Title |+-------------+|shorttitle_1 ||shorttitle_2 |+-------------+
添加回答
举报
0/150
提交
取消