Matrix-3D— 昆仑万维开源的3D世界模型-人工智能-PHP中文网

Matrix-3D— 昆仑万维开源的3D世界模型

碧海醫心

发布： 2025-08-13 13:34:31

原创

381人浏览过

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Matrix-3D 是什么

matrix-3d 是由昆仑万维旗下 skywork ai 团队研发的一项创新性框架，专注于生成可交互、可探索的全景3d环境。该框架融合了全景视频生成与先进的3d重建技术，能够从单张图像或纯文本提示出发，构建出高质量、支持全向浏览的3d世界。通过引入轨迹引导的扩散模型，并结合两种3d重建策略——高效前馈网络与精细优化流程，matrix-3d 实现了大范围、高空间一致性的场景生成，兼容文本与图像输入，具备出色的泛化能力和生成效率。配套发布的 matrix-pano 大规模数据集，进一步推动了相关领域的研究发展。

腾讯混元3D

腾讯推出的一站式3D内容创作平台

240

查看详情

Matrix-3D 的核心功能

全景视频合成：基于单图或文本指令生成沉浸式全景视频，支持用户自定义相机运动路径。
双模式3D重建：提供快速前馈推理和高精度优化两种方式，灵活应对实时应用与高质量输出需求。
多模态输入支持：兼容文本描述与图像输入，用户可根据场景自由选择生成方式。
广域3D场景构建：生成结果覆盖广阔空间范围，支持360°无死角探索，探索连续性与范围优于现有方案。
高度可扩展性：允许在已有场景基础上沿自定义轨迹持续扩展，实现无限场景延展。

Matrix-3D 的技术架构

轨迹驱动的全景扩散模型：以场景网格（Mesh）渲染图为条件输入，训练视频扩散模型。根据用户设定的相机轨迹生成连贯的全景视频，确保几何结构合理与空间一致性。
基于Latent的3D几何预测：采用 Transformer 架构，直接从生成视频的隐空间（latent）特征中解码3D几何信息，实现快速重建，适用于实时系统。
优化导向的高质量重建：对生成的全景视频进行超分处理，并结合3D Gaussian Splatting 技术进行迭代优化，产出细节丰富、视觉逼真的3D场景。
Matrix-Pano 数据集支撑：为缓解3D数据匮乏问题，团队构建了包含116,759个高质量静态全景视频序列的大规模合成数据集，每个样本均附带精确相机轨迹与标注信息，为模型训练提供坚实基础。
全景图作为中间表示：使用全景图作为核心媒介，覆盖水平360°与垂直180°视角。通过多个视角下的全景图拼接形成视频序列，完整保留构建3D世界所需的空间信息。