字节跳动联合团队开源video depth anything (vda),实现高效稳定的长视频深度估计
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI实验室的最新研究成果。 字节跳动智能创作AR团队和豆包大模型团队近日联合发布了Video Depth Anything (VDA) 项目,该项目有效解决了单目深度估计模型在视频领域面临的时间一致性难题。VDA基于Depth Anything V2,通过融合高效时空注意力机制、精简时域一致性损失函数以及创新的关键帧长视频推理策略,实现了对长达10分钟视频的精准、稳定、高效的深度估计。
VDA的优势:速度与精度兼顾
单目深度估计模型广泛应用于增强现实、3D重建和自动驾驶等领域。Depth Anything系列模型因其泛化能力强、细节丰富、计算效率高而备受关注。然而,其在视频应用中容易受画面剧烈变化和运动模糊影响,导致精度和稳定性下降。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
VDA巧妙地解决了这一问题。它沿用Depth Anything V2作为编码器,并新增轻量级时空头,在不牺牲原有模型特征的前提下,有效融合时间维度信息。同时,VDA提出了一种新颖的时序梯度匹配损失函数,无需依赖光流信息,即可实现时序一致性约束。 此外,VDA的关键帧推理策略,能够高效处理超长视频,并最大限度地减少计算负担和累积误差。

实验结果:SOTA表现
在六个基准数据集上的实验结果表明,VDA在精度、稳定性和速度方面均超越了现有SOTA模型,精度提升超过10个百分点,速度更是此前最高精度模型的10倍以上。在V100显卡上,小型VDA模型的推理速度甚至可达30FPS。



项目信息:
Prompt Depth Anything:另一项开源成果
除了VDA,豆包大模型团队还与浙江大学合作开源了Prompt Depth Anything,实现了4K分辨率下的高精度绝对深度估计。该技术通过引入提示机制,利用LiDAR数据等作为提示信息,显著提升了深度估计的精度。 这项技术也具有广泛的下游应用潜力,例如3D重建、自动驾驶和机器人抓取等。






以上就是Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号