
在pyspark的机器学习(ml)模块中,向量数据通常以vectorudt(user defined type)的形式存储。这种类型可以表示两种主要形式的向量:densevector(密集向量)和sparsevector(稀疏向量)。sparsevector特别适用于包含大量零值的向量,它通过存储非零值的索引和对应值来节省存储空间。例如,一个稀疏向量可能被表示为{"vectortype": "sparse", "length": 262144, "indices": [21641], "values": [1]}。
尽管在显示时,这些向量的内部结构(如indices和values)清晰可见,但在PySpark DataFrame的操作中,直接通过.values属性访问这些内部字段通常会失败,因为PySpark将整个VectorUDT列视为一个不可直接解构的对象,而非一个字典或字符串。用户面临的常见需求是将这些封装在VectorUDT中的实际数值提取出来,以便进行进一步的计算或分析。
PySpark提供了一个专门用于此目的的内置函数:pyspark.ml.functions.vector_to_array。这个函数能够将VectorUDT类型的列(无论是密集还是稀疏向量)转换为一个标准的ArrayType列,其中包含双精度浮点数。
以下是一个详细的示例,演示了如何使用vector_to_array函数来提取向量中的数值:
from pyspark.sql import SparkSession
from pyspark.ml.linalg import SparseVector, DenseVector
import pyspark.ml.functions as mfunc
from pyspark.sql.types import StructType, StructField, ArrayType, DoubleType
# 初始化SparkSession
spark = SparkSession.builder.appName("VectorToArrayConversion").getOrCreate()
# 准备示例数据
# 包含稀疏向量和密集向量
data_ls = [
(SparseVector(3, [(0, 1.0), (2, 2.0)]),), # 稀疏向量:长度3,索引0处值为1.0,索引2处值为2.0
(DenseVector([3.0, 0.0, 1.0]),), # 密集向量:[3.0, 0.0, 1.0]
(SparseVector(3, [(1, 4.0)]),) # 稀疏向量:长度3,索引1处值为4.0
]
# 创建DataFrame
df = spark.createDataFrame(data_ls, ['vec'])
print("原始DataFrame及其Schema:")
df.printSchema()
df.show(truncate=False)
# 使用vector_to_array函数转换向量列
df_converted = df.withColumn('arr', mfunc.vector_to_array('vec'))
print("\n转换后的DataFrame及其Schema:")
df_converted.printSchema()
df_converted.show(truncate=False)
# 预期输出:
# 原始DataFrame及其Schema:
# root
# |-- vec: vector (nullable = true)
#
# +-------------------+
# |vec |
# +-------------------+
# |(3,[0,2],[1.0,2.0])|
# |[3.0,0.0,1.0] |
# |(3,[1],[4.0]) |
# +-------------------+
#
# 转换后的DataFrame及其Schema:
# root
# |-- vec: vector (nullable = true)
# |-- arr: array<double> (nullable = false)
#
# +-------------------+---------------+
# |vec |arr |
# +-------------------+---------------+
# |(3,[0,2],[1.0,2.0])|[1.0, 0.0, 2.0]|
# |[3.0,0.0,1.0] |[3.0, 0.0, 1.0]|
# |(3,[1],[4.0]) |[0.0, 4.0, 0.0]|
# +-------------------+---------------+
spark.stop()当需要在PySpark中从VectorUDT类型的稀疏或密集向量中提取实际数值时,pyspark.ml.functions.vector_to_array函数是最高效和最直接的解决方案。它避免了手动解析复杂VectorUDT结构的麻烦,并提供了一个标准的ArrayType输出,便于后续的数据处理和分析。理解该函数如何处理稀疏向量(填充零值)对于正确解释输出结果至关重要。
以上就是PySpark中从VectorUDT稀疏向量提取数值的方法的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号