微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 硬件教程 > 硬件测评 > 正文

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

花韻仙語

发布： 2025-10-01 11:14:13

原创

595人浏览过

在机器人学习领域，让 ai 真正“看懂”三维世界始终是一个核心挑战。

现有的视觉语言动作（VLA）模型大多基于预训练的视觉语言模型（VLM），仅利用 2D 图像-文本对进行训练，缺乏对真实操作至关重要的 3D 空间感知能力。

虽然当前一些方法通过引入显式深度信息来增强模型，但这类方案通常依赖额外的深度传感器或复杂的深度估计网络，带来了部署复杂、成本高以及噪声干扰等实际问题。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

为解决这一难题，上海交通大学与剑桥大学联合提出了一种轻量化的 VLA 增强框架——Evo-0。该方法无需任何显式深度输入或外部硬件，而是通过隐式注入 3D 几何先验知识，显著提升模型的空间理解能力。

Evo-0 利用视觉几何基础模型 VGGT，从多视角 RGB 图像中提取深层的 3D 结构信息，并将其融合进原有的视觉语言模型中，从而实现对物体空间布局和几何关系的精准建模。

在 RLBench 仿真实验中，Evo-0 在五个需要精细空间操作的任务上表现优异，平均成功率比基线模型 π0 提升 15%，相比 openvla-oft 更高出 31%。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

其核心技术在于将 VGGT 作为空间编码器，提取其在训练过程中生成的 t3^D token，这些 token 蕴含了丰富的深度上下文和跨视角的空间对应信息。

通过设计一个 cross-attention 融合模块，以 ViT 提取的 2D 视觉 token 作为 query，VGGT 输出的 3D token 作为 key 和 value，实现 2D 与 3D 表征的有效融合，增强模型对复杂空间结构的理解。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

融合后的特征与语言指令一同输入冻结主干的 VLM 模型，动作则由 flow-matching 策略生成。训练过程中仅微调融合模块、LoRA 适配层及动作专家部分，大幅降低了计算开销。

研究团队在 5 个 RLBench 模拟任务和 5 个真实机器人操作任务上进行了全面验证，并在 5 种不同干扰条件下评估鲁棒性。实验结果表明，Evo-0 在各类设置下均展现出更强的空间感知能力，性能全面超越现有先进 VLA 模型。

此外，在超参数分析实验中，团队重点考察了训练步数与执行步数对任务成功率的影响。结果显示，仅用 15k 步训练的 Evo-0 就已超过训练 20k 步的 π0 模型，证明其具备更高的学习效率。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

在真实机器人实验中，设置了五项对空间精度要求极高的任务：目标居中放置、插孔、密集抓取、置物架放置和透明物体操作。

Alkaid.art

Alkaid.art

专门为Phtoshop打造的AIGC绘画插件

Alkaid.art

153

Alkaid.art

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

Evo-0 在所有任务中均优于基线 π0，平均成功率提升达 28.88%。尤其在插孔和透明物体抓取任务中，展现了对复杂空间关系的深刻理解与高精度操控能力。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

鲁棒性测试涵盖五类干扰：（1）新增未见干扰物，（2）背景颜色变化，（3）目标位置偏移，（4）目标高度变动，（5）相机视角改变。Evo-0 在各项干扰下均保持稳定表现，且显著优于 π0。

机器人感知大升级！轻量化注入几何先验，成功率提升 31%

综上所述，Evo-0 的核心创新在于借助 VGGT 提取丰富的空间语义信息，规避了深度估计误差与专用传感器依赖，以即插即用的方式增强 VLA 模型的空间建模能力。该方法训练高效、部署灵活，为通用机器人智能策略的发展提供了新的可行路径。

论文链接：https://www.php.cn/link/5fa5ca950fb704c977027ddfc2ee7e3f

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

量子位智库 AI100 季度榜单征集中！征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品～

一键关注点亮星标

科技前沿进展每日见

以上就是机器人感知大升级！轻量化注入几何先验，成功率提升 31%的详细内容，更多请关注php中文网其它相关文章！

相关标签：

编码 ai 上海 2025 Token https 传感器

大家都在看：

显示器护眼效果？明基EW2880U智慧调光测试 Win11怎样阻止软件调用摄像头_win11摄像头使用权限设置教程办公鼠标终极之选？罗技MX Master 3S长期体验 Win11如何关闭摄像头访问权限_Win11摄像头权限设置教程苹果Magic Keyboard带触控板测评：iPad Pro的最佳搭档？

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：奥特曼和量子计算奠基人讨论 GPT-8 下一篇：思必驰发布 AI 办公本 X5 系列：以多智能体协作与端侧大模型重构会议体验

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Mac截图全攻略：快捷键一览

2025-11-19 12:30:02
Tkinter Menubutton与Menu正确关联指南

2025-11-19 12:34:26
解决IIS URL重写规则导致静态资源加载失败的问题

2025-11-19 12:42:36
《CEDEC 2026》7月22日举行日本最大游戏开发者大会

2025-11-19 12:45:02
NumPy reshape 深度解析：方法与函数的差异与应用

2025-11-19 12:47:00
在Gravis可视化NetworkX图时为节点添加交互式工具提示

2025-11-19 12:50:02
解决Symfony本地应用连接Docker容器数据库的指南

2025-11-19 12:50:21
利用Flask和Jinja2在表单提交后显示成功或错误消息

2025-11-19 12:51:34
PHP API开发中JSON响应前的HTML输出问题解析与解决方案

2025-11-19 12:56:02
使用Python高效识别和处理CSV文件中的列数不一致及编码问题

2025-11-19 12:56:57

最新问题

佳能PowerShot V10上手体验：vlog神器的实际表现佳能PowerShotV10主打轻便Vlog拍摄，体积小巧仅211克，内置多角度支架便于桌面摆放；搭载1.0型CMOS与DIGICX处理器，4K画质清晰、色彩真实，19mm超广角镜头适合自拍，弱光表现优于手机；五轴防抖在日常行走中效果良好，固件升级后稳定性提升；内置麦克风收音清晰且支持USB直播；触控操作便捷，翻转屏利于自拍构图；续航约一小时需备用电池，自动对焦速度一般，偶有死机。总体定位精准，适合追求便携与直出质感的Vlogger。

2025-11-21 14:05:02

596

西部数据SN850X温度控制：无散热片装机游戏加载会触发限速？ SN850X无散热片游戏加载通常不触发限速，因其具备动态功耗管理、镀铜散热标签等温控技术，实测连续写入3TB仍稳定在6800MB/s；游戏加载时间短、以读取为主，发热量低，用户和媒体实测均未出现过热降速；建议优先使用主板自带散热片并保证机箱风道，长期高负载可选第三方散热片，日常gaming使用温控完全足够。

2025-11-21 12:52:02

254

华为FreeBuds Pro 3通话测试：静谧通话2.0技术在嘈杂环境表现华为FreeBudsPro3凭借静谧通话2.0技术，在多种嘈杂环境下实现清晰通话。该技术依托麒麟A2芯片的强大算力，结合高灵敏度骨传导麦克风与优化布局的物理麦克风，精准拾取人声并减少环境干扰。多通道DNN算法智能分离人声与噪音，保留语音细节，使通话更自然真实。在地铁、高铁、机场等高噪场景中，背景噪音显著降低，人声更突出；升级的抗风噪算法有效抑制户外风声，避免“呼呼”杂音；甚至在超过120分贝的火箭发射场极端环境中仍能维持清晰通话，展现出行业领先的降噪实力。

2025-11-21 10:47:03

807

华为Watch GT 5续航实测：重度使用能否坚持两周？华为WATCHGT5在轻度使用下续航接近14天，重度使用约9-10天，42mm版本为5-7天；开启GPS、频繁使用智能功能会显著耗电，调整设置可延长续航。

2025-11-21 09:35:52

942

大疆无人机怎么规划航线_大疆无人机智能航线规划与飞行任务设置通过设置航点航线可实现大疆无人机自动飞行与拍摄。首先在DJIFlyApp中创建航点航线，最多添加200个航点并调整位置；随后为每个航点独立设置高度、速度、朝向、云台角度、相机动作及悬停时间；可通过【应用到全部】批量同步参数以提升效率；接着配置全局航线参数，包括巡航速度、避障行为等；完成后保存航线至本地或云端，支持命名与管理；最后执行任务前完成安全检查，确认环境安全后点击【GO】启动自动飞行，无人机将按序执行航点指令。

2025-11-21 09:24:43

949

大疆无人机怎么用低温环境_大疆无人机低温环境飞行准备与注意事项低温飞行需重点防范电池性能下降与设备损伤，首先确保电池预热至15℃以上并全程保温，起飞前检查机身及密封性，避免湿气侵入，飞行中缩短续航时间至常温60%-70%，监控电压与温度，保持低空稳定飞行，避免剧烈操作，降落后将设备密封缓回暖区防止冷凝，待恢复室温后清洁干燥再充电存储。

2025-11-21 08:24:05

498

显示器色彩精准度？戴尔U2723QE专业屏测试戴尔U2723QE显示器色彩精准，覆盖100%sRGB和Rec.709色域，DCI-P3达98%，配合IPSBlack技术实现2000:1高对比度，出厂DeltaE＜2校色确保开箱即用，适合设计修图等专业工作。

2025-11-20 20:23:02

595

Win11如何禁用应用摄像头权限_win11摄像头访问控制方法关闭所有应用的摄像头访问可全局禁用，保护隐私；2.为单个应用设置权限实现精细化管理，不影响其他应用；3.通过设备管理器禁用摄像头硬件，彻底防止恶意软件偷拍；日常使用推荐前两种，高安全需求选第三种，物理遮挡也有效。

2025-11-20 20:17:02

312

全能型显示器？LG 27GP95R Nano IPS游戏办公双场景评测 27GP95R凭借4K160HzNanoIPS面板实现游戏与办公平衡，支持G-Sync、HDMI2.1及HDR600，响应快、色彩佳，接口丰富且支架可调，满足多场景需求。

2025-11-20 20:14:02

913

键盘客制化入门套件？Moonshot M1组装体验报告 MoonshotM1是高性价比客制化键盘入门选择，主打Gasket结构与三模无线，铝合金外壳质感出色，需自行组装并调试卫星轴，建议新手以“能用”为目标逐步优化手感与声音。

2025-11-20 20:10:02

472

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部