为了账号安全,请及时绑定邮箱和手机立即绑定

如何在执行“org.apache.spark.sql.DataSet.collectAsList()

如何在执行“org.apache.spark.sql.DataSet.collectAsList()

人到中年有点甜 2022-11-02 10:38:28
我正在创建一个 Java RESTAPI Spring Boot 应用程序,它使用 spark 从服务器获取一些数据。当我尝试从数据集转换为列表时,它失败了。我已经尝试使用 jdk8 和 jdk11 来编译和执行代码,但我得到相同的“java.lang.IllegalArgumentException:不支持的类文件主要版本 55”,过去,我通过更新 Java 版本解决了这个问题,但它是不为此工作。我在用着:JDK 11.0.2春季启动 2.1.4火花 2.4.2这是我正在执行的代码:Dataset<Row> dataFrame = sparkSession.read().json("/home/data/*.json");        dataFrame.createOrReplaceTempView("events");        Dataset<Row> resultDataFrame = sparkSession.sql("SELECT * FROM events WHERE " + predicate);         Dataset<Event> eventDataSet = resultDataFrame.as(Encoders.bean(Event.class));        return eventDataSet.collectAsList();查询有效,实际上在调试时您可以在 resultDataFrame 和 eventDataSet 中看到信息。我希望输出是正确的事件列表,但我得到了例外:[http-nio-8080-exec-2] ERROR org.apache.catalina.core.ContainerBase.[Tomcat].[localhost].[/].[dispatcherServlet] - Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exception is java.lang.IllegalArgumentException: Unsupported class file major version 55] with root causejava.lang.IllegalArgumentException: Unsupported class file major version 55    at org.apache.xbean.asm6.ClassReader.<init>(ClassReader.java:166)    at org.apache.xbean.asm6.ClassReader.<init>(ClassReader.java:148)    at org.apache.xbean.asm6.ClassReader.<init>(ClassReader.java:136)    at org.apache.xbean.asm6.ClassReader.<init>(ClassReader.java:237)    at org.apache.spark.util.ClosureCleaner$.getClassReader(ClosureCleaner.scala:49)    at org.apache.spark.util.FieldAccessFinder$$anon$3$$anonfun$visitMethodInsn$2.apply(ClosureCleaner.scala:517)    at org.apache.spark.util.FieldAccessFinder$$anon$3$$anonfun$visitMethodInsn$2.apply(ClosureCleaner.scala:500)    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733).....评论更新:对于 Java 8,我将 pom 更改为针对 java 8:<java.version>1.8</java.version>然后更新项目,maven clean,maven install 然后运行。获得相同的版本 55 错误
查看完整描述

3 回答

?
慕妹3242003

TA贡献1824条经验 获得超6个赞

从 spark-core 依赖项中排除默认的 XBean 工件并添加最新版本的 XBean 工件,它对我有用。


<dependencies>

    <dependency>

        <groupId>org.apache.xbean</groupId>

        <artifactId>xbean-asm6-shaded</artifactId>

        <version>4.10</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-core_2.11</artifactId>

        <version>2.4.1</version>

        <exclusions>

            <exclusion>

                <groupId>org.apache.xbean</groupId>

                <artifactId>xbean-asm6-shaded</artifactId>

            </exclusion>

        </exclusions>

    </dependency>

</dependencies>


查看完整回答
反对 回复 2022-11-02
?
胡子哥哥

TA贡献1825条经验 获得超6个赞

问题的根本原因是我瞄准了错误的 JDK 的符号链接,这就是它不起作用的原因。JAVA_HOME 的目标是 jdk11 并且 eclipse 正在运行它。



查看完整回答
反对 回复 2022-11-02
?
MM们

TA贡献1886条经验 获得超2个赞

由于大多数python开发人员为该项目生成了virutalenv,因此您可以使用以下代码段来检查pyspark工作所需的不同组件的版本。错误的原因是java版本不兼容。pyspark期望java version 1.8+而不是jdk-11。Major version 55对应于jdk-11您在此处看到的


仅检查官方 spark 文档以了解版本兼容性。


import subprocess


# subprocess to find the java , scala and python version

cmd1 = "java -version"

cmd2 = "scala -version"

cmd3 = "python --version"

cmd4 = "whoami"


arr = [cmd1, cmd2, cmd3, cmd4]


for cmd in arr:

    process = subprocess.Popen(cmd.split(" "), stdout=subprocess.PIPE,stderr=subprocess.PIPE )

    stdout,stderr=process.communicate()

    logging.info(stdout.decode("utf-8") + " | "  + stderr.decode("utf-8"))


logging.info(os.getenv("JAVA_HOME"))

logging.info(os.getenv("HOME"))

您将获得以下输出:


INFO:root: | openjdk version "1.8.0_252"

OpenJDK Runtime Environment (build 1.8.0_252-8u252-b09-1~18.04-b09)

OpenJDK 64-Bit Server VM (build 25.252-b09, mixed mode)


INFO:root: | Scala code runner version 2.12.2 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc.


INFO:root:Python 3.6.9


INFO:root:training


查看完整回答
反对 回复 2022-11-02
  • 3 回答
  • 0 关注
  • 149 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信