如何从Java应用向Bash脚本传递包含Spark配置的长字符串参数-java教程-PHP中文网

如何从Java应用向Bash脚本传递包含Spark配置的长字符串参数

霞舞

发布： 2025-10-02 21:24:01

原创

803人浏览过

如何从java应用向bash脚本传递包含spark配置的长字符串参数

本文旨在解决从Java应用程序向Bash脚本传递包含Spark配置的长字符串参数时可能遇到的问题。通过示例代码和详细解释，展示了如何在Bash脚本中正确解析和使用这些参数，从而避免常见的类加载失败等错误，并提供了一种更清晰、更易于维护的配置管理方式。

在将Spark配置作为单个字符串参数从Java传递到Bash脚本时，需要特别注意参数的引用和转义，以确保spark-submit命令能够正确解析这些配置。以下是一些关键点和实践方法，帮助你避免常见的错误。

问题分析

从Java传递到Bash脚本的配置字符串，如果包含空格、特殊字符或引号，可能会导致spark-submit命令解析失败。这通常表现为ClassNotFoundException或其他与配置相关的错误。核心问题在于Bash脚本如何正确地将接收到的字符串参数传递给spark-submit。

解决方案

以下是一种更可靠的方案，它使用cat << EOF构造来定义Bash脚本中的配置字符串，避免了直接传递长字符串可能带来的问题。

立即学习“Java免费学习笔记（深入）”；

1. 在Bash脚本中使用cat << EOF定义配置

修改你的spark_job.sh脚本，使用cat << EOF来定义CONF变量。这种方式允许你定义一个包含多行和特殊字符的字符串，而无需担心转义问题。

豆包爱学

豆包旗下AI学习应用

674

查看详情

CONF=$(cat << EOF
--class com.at.es_parent_child.SegmentIcebergEsV2 \
--master yarn \
--deploy-mode client \
--queue llap \
--num-executors 3 \
--driver-memory 1024m \
--executor-memory 1024m \
--executor-cores 4 \
--name '[564889711]es_parent_child.[0].1668574353481' \
--conf spark.executor.extraClassPath=/etc/hbase/conf \
--conf spark.driver.extraClassPath=/etc/hbase/conf \
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
--conf spark.max.executor.failures=100 \
--conf spark.rdd.compress=true \
--conf spark.sql.debug.maxToStringFields=2000 \
--conf spark.sql.hive.convertMetastoreParquet=false \
--conf spark.default.parallelism=50 \
--conf spark.debug.maxToStringFields=2000 \
--conf hbase.defaults.for.version.skip=true \
--conf spark.yarn.executor.memoryOverhead=1024 \
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
--conf spark.sql.catalog.spark_catalog.type=hive \
--conf spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.iceberg.type=hive \
--conf spark.sql.adaptive.coalescePartitions.enabled=true \
--files /etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml
EOF
)

sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit "$CONF" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" "$3" "$4" "$5" &

登录后复制

注意:

EOF 是一个分隔符，你可以选择任何不出现在字符串中的字符。
务必使用 "$CONF" 来引用变量，以防止单词分割。
示例中的name参数，包含方括号，需要用单引号包裹起来，避免bash脚本解析错误

2. Java代码保持不变

你的Java代码可以保持不变，继续将配置字符串作为参数传递给Bash脚本。

String[] cmd = {"/bin/sh", System.getProperty("user.dir") + "/spark_job.sh", CONF,
                            zKUrl,""+ task.getPortalId(), task.getJobId(),""+ task.getIndexCode()};

登录后复制

3. 参数传递和引用

在调用spark-submit时，使用"$CONF"确保整个配置字符串被作为一个参数传递。同时，确保其他的参数 $2, $3, $4, $5 也被双引号包裹，防止参数中包含空格导致解析错误。