Java DataFrame：过滤包含特定列 Null 值的行-java教程-PHP中文网

Java DataFrame：过滤包含特定列 Null 值的行

DDD

发布： 2025-10-11 10:15:01

原创

176人浏览过

java dataframe：过滤包含特定列 null 值的行

本文旨在介绍如何使用 Java 对 DataFrame 进行过滤，保留至少在指定列（COLUMN_1 和 COLUMN_2）中包含非 Null 值的行。我们将演示如何使用 `or` 条件来构建过滤器，并提供相应的代码示例。

在处理 DataFrame 数据时，经常需要根据特定列的值进行过滤。本教程将重点介绍如何使用 Java 和 Apache Spark DataFrame API 来过滤 DataFrame，保留那些在指定列中至少有一个非 Null 值的行。例如，我们有一个包含 NAME, COLUMN_1, 和 COLUMN_2 列的 DataFrame。我们的目标是过滤掉 COLUMN_1 和 COLUMN_2 两列都为 Null 的行，只保留至少有一列不为 Null 的行。

使用 or 条件进行过滤

关键在于使用正确的逻辑运算符。如果使用 and 条件，则要求所有指定的列都必须满足非 Null 的条件，这会导致同时包含 Null 值的行被过滤掉。而使用 or 条件，则只需要至少有一列满足非 Null 的条件即可。

立即学习“Java免费学习笔记（深入）”；

以下是使用 or 条件进行过滤的 Java 代码示例：

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

查看详情

import org.apache.spark.sql.Column;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import static org.apache.spark.sql.functions.col;

public class DataFrameFilter {

    public static void main(String[] args) {
        // 创建 SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("DataFrameFilter")
                .master("local[*]") // 使用本地模式，方便测试
                .getOrCreate();

        // 创建示例 DataFrame (替换为你的实际数据)
        Dataset<Row> df = spark.createDataFrame(
                java.util.Arrays.asList(
                        org.apache.spark.sql.RowFactory.create("name_1", null, "some_value"),
                        org.apache.spark.sql.RowFactory.create("name_2", "some_value", null),
                        org.apache.spark.sql.RowFactory.create("name_3", null, null)
                ),
                org.apache.spark.sql.types.DataTypes.createStructType(
                        new org.apache.spark.sql.types.StructField[]{
                                new org.apache.spark.sql.types.StructField("NAME", org.apache.spark.sql.types.DataTypes.StringType, true, org.apache.spark.sql.types.Metadata.empty()),
                                new org.apache.spark.sql.types.StructField("COLUMN_1", org.apache.spark.sql.types.DataTypes.StringType, true, org.apache.spark.sql.types.Metadata.empty()),
                                new org.apache.spark.sql.types.StructField("COLUMN_2", org.apache.spark.sql.types.DataTypes.StringType, true, org.apache.spark.sql.types.Metadata.empty())
                        }
                )
        );


        // 创建过滤器，使用 or 条件
        Column filter = col("COLUMN_1").isNotNull().or(col("COLUMN_2").isNotNull());

        // 应用过滤器
        Dataset<Row> filteredDf = df.filter(filter);

        // 显示过滤后的 DataFrame
        filteredDf.show();

        // 关闭 SparkSession
        spark.close();
    }
}

登录后复制

代码解释：

创建 SparkSession: 这是 Spark 应用程序的入口点。
创建示例 DataFrame: 这里创建了一个包含示例数据的 DataFrame。你需要替换成你自己的 DataFrame。
创建过滤器: col("COLUMN_1").isNotNull().or(col("COLUMN_2").isNotNull()) 这行代码创建了一个 Column 对象，它表示一个过滤条件。col("COLUMN_1").isNotNull() 检查 COLUMN_1 列是否为 null，col("COLUMN_2").isNotNull() 检查 COLUMN_2 列是否为 null。or 运算符将这两个条件连接起来，表示只要其中一个条件为真，该行就会被保留。
应用过滤器: df.filter(filter) 将过滤器应用到 DataFrame，返回一个新的 DataFrame，其中只包含满足过滤条件的行。
显示过滤后的 DataFrame: filteredDf.show() 将过滤后的 DataFrame 的内容打印到控制台。
关闭 SparkSession: 释放资源。