银河通用携手北京大学、阿德莱德大学、浙江大学等科研团队,共同发布了全球首个实现跨本体全域环视的导航基座大模型——navfom(navigation foundation model),首次将视觉-语言导航(vision-and-language navigation)、目标导向导航(object-goal navigation)、视觉跟踪(visual tracking)以及自动驾驶(autonomous driving)等多种机器人导航任务统一于同一框架之下。
更进一步,NavFoM 可作为通用基座,供开发者通过后续微调或后训练,演化为满足特定应用场景需求的专业化导航模型。

NavFoM 提出了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”。无论是“请跟着前方行人”还是“去找到门口那辆红色汽车”,所有任务均以一致的输入输出形式处理。该模型摆脱了传统模块化系统的拼接结构,实现了从感知到理解再到决策执行的端到端闭环。
这一突破意味着原本相互孤立的导航任务可通过统一的数据对齐与任务建模实现知识迁移,不同形态的机器人亦能共享视觉认知与运动控制的经验。
NavFoM 的核心技术包含两项创新:


为支撑该模型的训练,银河通用构建了迄今规模最大的跨任务导航数据集,包含高达八百万条涵盖视觉语言导航、目标导航、视觉跟踪、自动驾驶及网络导航等多类型任务的跨本体数据,并融合四百万条开放域问答样本,强化模型在语言与空间语义之间的关联理解能力。整体训练数据量约为此前同类研究的两倍水平。
以上就是银河通用发布环视导航基座大模型 NavFoM的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号