Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

DDD
发布: 2025-01-27 20:44:01
原创
1134人浏览过

字节跳动联合团队开源video depth anything (vda),实现高效稳定的长视频深度估计

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续报道全球顶尖AI实验室的最新研究成果。 字节跳动智能创作AR团队和豆包大模型团队近日联合发布了Video Depth Anything (VDA) 项目,该项目有效解决了单目深度估计模型在视频领域面临的时间一致性难题。VDA基于Depth Anything V2,通过融合高效时空注意力机制、精简时域一致性损失函数以及创新的关键帧长视频推理策略,实现了对长达10分钟视频的精准、稳定、高效的深度估计。

VDA的优势:速度与精度兼顾

单目深度估计模型广泛应用于增强现实、3D重建和自动驾驶等领域。Depth Anything系列模型因其泛化能力强、细节丰富、计算效率高而备受关注。然而,其在视频应用中容易受画面剧烈变化和运动模糊影响,导致精度和稳定性下降。

立即进入豆包AI人工智官网入口”;

立即学习豆包AI人工智能在线问答入口”;

VDA巧妙地解决了这一问题。它沿用Depth Anything V2作为编码器,并新增轻量级时空头,在不牺牲原有模型特征的前提下,有效融合时间维度信息。同时,VDA提出了一种新颖的时序梯度匹配损失函数,无需依赖光流信息,即可实现时序一致性约束。 此外,VDA的关键帧推理策略,能够高效处理超长视频,并最大限度地减少计算负担和累积误差。

图片

实验结果:SOTA表现

LibLib AI
LibLib AI

中国领先原创AI模型分享社区,拥有LibLib等于拥有了超多模型的模型库、免费的在线生图工具,不考虑配置的模型训练工具

LibLib AI 647
查看详情 LibLib AI

在六个基准数据集上的实验结果表明,VDA在精度、稳定性和速度方面均超越了现有SOTA模型,精度提升超过10个百分点,速度更是此前最高精度模型的10倍以上。在V100显卡上,小型VDA模型的推理速度甚至可达30FPS。

图片

图片图片

项目信息:

Prompt Depth Anything:另一项开源成果

除了VDA,豆包大模型团队还与浙江大学合作开源了Prompt Depth Anything,实现了4K分辨率下的高精度绝对深度估计。该技术通过引入提示机制,利用LiDAR数据等作为提示信息,显著提升了深度估计的精度。 这项技术也具有广泛的下游应用潜力,例如3D重建、自动驾驶和机器人抓取等。

图片图片图片图片图片图片

以上就是Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号