Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA-人工智能-PHP中文网

Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

DDD

发布： 2025-01-27 20:44:01

原创

1134人浏览过

字节跳动联合团队开源video depth anything (vda)，实现高效稳定的长视频深度估计

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI实验室的最新研究成果。字节跳动智能创作AR团队和豆包大模型团队近日联合发布了Video Depth Anything (VDA) 项目，该项目有效解决了单目深度估计模型在视频领域面临的时间一致性难题。VDA基于Depth Anything V2，通过融合高效时空注意力机制、精简时域一致性损失函数以及创新的关键帧长视频推理策略，实现了对长达10分钟视频的精准、稳定、高效的深度估计。

VDA的优势：速度与精度兼顾

单目深度估计模型广泛应用于增强现实、3D重建和自动驾驶等领域。Depth Anything系列模型因其泛化能力强、细节丰富、计算效率高而备受关注。然而，其在视频应用中容易受画面剧烈变化和运动模糊影响，导致精度和稳定性下降。

立即进入“豆包AI人工智官网入口”；

立即学习“豆包AI人工智能在线问答入口”；

VDA巧妙地解决了这一问题。它沿用Depth Anything V2作为编码器，并新增轻量级时空头，在不牺牲原有模型特征的前提下，有效融合时间维度信息。同时，VDA提出了一种新颖的时序梯度匹配损失函数，无需依赖光流信息，即可实现时序一致性约束。此外，VDA的关键帧推理策略，能够高效处理超长视频，并最大限度地减少计算负担和累积误差。