3 回答
TA贡献1804条经验 获得超2个赞
我在 AWS EMR 集群上的 JupyterLab 笔记本中使用 PySpark 内核时遇到了这个问题。我发现 sparkmagic 命令%%display
解决了这个问题。例如,我的 Jupyter 单元看起来像 -
%%display some_spark_df
还值得指出的是,如果%%display
和 变量之间有空行,则会出错。
但是我不确定如何对熊猫数据框做同样的事情。使用 PySpark 内核时仍然返回对象描述(与纯 Python3 内核相反)
TA贡献1725条经验 获得超7个赞
所以 df.toPandas() 确实将数据帧呈现为 html 对象,但我的假设是您正在寻找其他东西或试图摆脱省略号 (...)。
您可以在之前配置 pandas 来解决这些问题,这就是我用来解决列、行和字段级别截断的方法;
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns',500)
你也可以使用上面的方法,但你有点乱,这是我使用的一个快速的小 udf;
from IPython.display import display, HTML
from pyspark.sql.functions import *
def printDf(sprkDF,records):
return HTML(sprkDF.limit(records).toPandas().to_html())
#printDf(df,10)
希望这可以帮助。
TA贡献1895条经验 获得超3个赞
也许您正在寻找的是这样的东西,它以表格格式打印输出 df:
import pandas
df.toPandas().to_html(index=False,col_space="40px", classes=('table', 'table-striped'))
添加回答
举报