
本文旨在解决从Java应用程序向Bash脚本传递包含Spark配置的长字符串参数时可能遇到的问题,并提供一种有效的解决方案。通过使用cat << EOF结构,可以将复杂的配置信息清晰地传递给Spark-submit命令,避免参数解析错误,确保Spark作业能够正确启动和执行。
在将Spark配置作为单个字符串参数从Java传递到Bash脚本时,可能会遇到问题,尤其是在配置包含空格、特殊字符或需要多行显示时。以下提供一种更可靠的方法来处理这种情况。
问题分析
直接将包含大量配置项的字符串作为参数传递给spark-submit命令时,Bash脚本可能会因为参数解析问题而导致配置错误,最终导致Spark作业启动失败。常见的错误包括类加载失败,配置项未生效等。
立即学习“Java免费学习笔记(深入)”;
解决方案:使用 cat << EOF 结构
cat << EOF 结构允许在Bash脚本中定义多行字符串,并将它们传递给命令。这种方法可以避免参数解析问题,并使配置更易于阅读和维护。
具体步骤
在Bash脚本中定义配置字符串:
使用 cat << EOF 将 Spark 配置定义为多行字符串。关键在于使用正确的转义和引用,并确保每行配置都是一个独立的参数。
CONF=$(cat << EOF --class com.at.es_parent_child.SegmentIcebergEsV2 \ --master yarn \ --deploy-mode client \ --queue llap \ --num-executors 3 \ --driver-memory 1024m \ --executor-memory 1024m \ --executor-cores 4 \ --name '[564889711]es_parent_child.[0].1668574353481' \ --conf spark.executor.extraClassPath=/etc/hbase/conf \ --conf spark.driver.extraClassPath=/etc/hbase/conf \ --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \ --conf spark.max.executor.failures=100 \ --conf spark.rdd.compress=true \ --conf spark.sql.debug.maxToStringFields=2000 \ --conf spark.sql.hive.convertMetastoreParquet=false \ --conf spark.default.parallelism=50 \ --conf spark.debug.maxToStringFields=2000 \ --conf hbase.defaults.for.version.skip=true \ --conf spark.yarn.executor.memoryOverhead=1024 \ --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \ --conf spark.sql.catalog.spark_catalog.type=hive \ --conf spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog \ --conf spark.sql.catalog.iceberg.type=hive \ --conf spark.sql.adaptive.coalescePartitions.enabled=true \ --files /etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml EOF )
注意:
在spark-submit命令中使用配置字符串:
使用双引号将 $CONF 变量括起来,以确保 Bash 脚本正确解析配置字符串。
sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit "$CONF" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" $3 $4 $5 &
注意:
Java 代码:
Java 代码部分基本保持不变,将配置字符串作为参数传递给 Bash 脚本。
String[] cmd = {"/bin/sh", System.getProperty("user.dir") + "/spark_job.sh", CONF,
zKUrl,""+ task.getPortalId(), task.getJobId(),""+ task.getIndexCode()};完整示例
Java 代码 (简化示例):
public class SparkSubmitExample {
public static void main(String[] args) throws Exception {
String conf = "--class com.example.MySparkApp --master local[*] --executor-memory 1g";
String scriptPath = "/path/to/your/spark_job.sh"; // 替换为你的脚本路径
String[] cmd = {"/bin/sh", scriptPath, conf, "arg1", "arg2"};
Process process = Runtime.getRuntime().exec(cmd);
// 处理进程的输入输出流和错误流...
}
}Bash 脚本 (spark_job.sh):
#!/bin/bash CONF=$(cat << EOF --class com.example.MySparkApp \ --master local[*] \ --executor-memory 1g EOF ) # 其他参数 ARG1=$2 ARG2=$3 /path/to/spark/bin/spark-submit "$CONF" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $ARG1 $ARG2
注意:
注意事项
总结
通过使用 cat << EOF 结构,可以更清晰、更可靠地将包含 Spark 配置的长字符串参数从 Java 应用程序传递到 Bash 脚本。这种方法避免了参数解析问题,提高了脚本的可读性和可维护性。在实际应用中,请根据具体情况调整配置,并仔细检查日志,以便及时发现和解决问题。
以上就是如何从Java应用程序向Bash脚本传递包含Spark配置的长字符串参数的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号