微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

碧海醫心

发布： 2025-02-18 14:54:01

原创

582人浏览过

ola：一款性能卓越的全模态语言模型，超越现有同类模型！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI研究成果，如果您有优秀工作，欢迎投稿或联系报道 (liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com)。

Ola模型，由腾讯混元Research、清华大学智能视觉实验室和南洋理工大学S-Lab联合研发，在图像、视频和音频理解方面展现出强大的竞争力。论文共同一作：清华大学刘祖炎博士、南洋理工大学董宇昊博士；通讯作者：腾讯饶永铭高级研究员、清华大学鲁继文教授。

GPT-4o的出现激发了全模态模型的研究热潮。虽然已有开源替代方案，但性能仍逊色于专用单模态模型。Ola模型的核心创新在于其渐进式模态对齐策略，它逐步扩展模型支持的模态，先从图像和文本入手，再逐步加入语音和视频数据，有效降低了训练成本并提升了模型性能。

项目地址：https://www.php.cn/link/42b1c6a5d2205c2a61dcc08c028e4592
论文：https://www.php.cn/link/a18177565d506ce27ba1197cb765ee0b
代码：https://www.php.cn/link/9754f4e85b915d1ecb9de2911d9d80cb
模型：https://www.php.cn/link/b4a3c653ae58ddb2b96bd00536fb0620

Ola模型在多个基准测试中显著超越了Qwen2.5-VL、InternVL2.5等主流模型。作为一款仅含70亿参数的全模态模型，它在图像、视频和音频理解方面均取得了突破性进展：

图像理解: 在OpenCompass基准测试中，其在8个数据集上的平均准确率达到72.6%，在所有参数量小于300亿的模型中排名第一，超越GPT-4o、InternVL2.5等。
视频理解: 在VideoMME测试中，Ola在输入视频和音频的情况下，准确率达到68.4%，超越LLaVA-Video、VideoLLaMA3等。
音频理解: 在语音识别和对话评估等任务中，Ola的表现也接近最先进的音频理解模型。

Ola模型、代码和训练数据均已开源，旨在推动全模态理解领域的研究发展。

图1：Ola全模态模型超越Qwen2.5-VL、InternVL2.5等主流多模态模型。

MakeSong

MakeSong

AI音乐生成，生成高质量音乐，仅需30秒的时间

MakeSong

145

MakeSong

Ola模型的成功，得益于其独特的渐进式模态对齐策略、高效的架构设计以及高质量的训练数据。该策略将复杂的训练过程分解为更易管理的步骤，并有效利用了视频数据作为连接视觉和音频模态的桥梁。

图2：渐进式模态学习能够训练更好的全模态模型

Ola模型的架构支持全模态输入和流式文本及语音生成，其视觉和音频联合对齐模块通过局部-全局注意力池化层有效融合了多模态信息。

图3：Ola模型结构图

Ola的训练数据涵盖了图像、视频和音频等多种模态，并包含专门设计的跨模态视频数据，以增强模型对音频和视频之间关系的理解。实验结果充分证明了Ola模型的优越性能和渐进式模态对齐策略的有效性。 Ola的出现为全模态大模型的研究和应用带来了新的突破。

以上就是最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai qwen 架构 github https gpt

大家都在看：

哩布哩布AI客服怎么联系_哩布哩布AI官方客服与反馈渠道全指南百度AI官网专业入口百度AI官网首页使用如何借助AI制作产品宣传视频_AI产品宣传视频制作与AI工具使用指南 chatgpt5怎么分析数据表格_chatgpt5数据表格上传解析及可视化方法教学 chatgpt5怎么进行角色扮演_chatgpt5角色扮演场景设置及互动玩法教程

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：威孚高科成功收购HySTech 40%股权，同步完成中国合资公司注册登记下一篇：国内首个短剧创作大模型开源了，一个人就能拍短剧，单卡80秒出大片

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Hatch虚拟环境存储位置详解与自定义指南

2025-11-22 12:50:02
Java Stream分组后如何从响应对象中排除特定字段

2025-11-22 12:51:01
Wagtail页面路径的访问限速策略

2025-11-22 12:51:39
解决 Scipy 中稀疏数组与信号相关函数 correlate 的兼容性问题

2025-11-22 12:54:06
WordPress the_content 过滤器：动态修改文章内容的专业指南

2025-11-22 12:55:28
如何通过CSS精确控制网页背景色

2025-11-22 12:57:02
解决Haskell CGI应用在Apache下读取文件数据时输出截断问题

2025-11-22 12:57:32
Java中链表相等性检查的正确实现指南

2025-11-22 13:00:08
如何通过点击的 div 获取正确的 ID

2025-11-22 13:01:26
Spring Batch 5.0 升级指南：配置类变更及迁移策略

2025-11-22 13:01:41

最新问题

百度Ai搜索怎么写工作计划_百度Ai搜索辅助撰写工作计划的使用技巧答案：借助百度AI搜索可高效撰写专业工作计划。首先明确岗位类型与目标，构建精准提示词；其次通过定制化指令生成初稿或大纲；接着根据实际需求调整内容，补充量化指标与个性化信息；最后利用多轮对话优化语言表达与逻辑结构，提升文档质量。

2025-11-24 08:38:02

912

deepseek网页版登录教程_deepseek功能操作指南答案是：登录DeepSeek网页版需访问官网，点击“开始对话”后选择手机号验证码、微信扫码或邮箱登录，首次登录自动注册并进入主界面。

2025-11-24 03:13:36

747

百度AI官网高效入口百度AI官网免费搜索百度AI官网高效入口是https://ai.baidu.com/，该平台提供70余项免费AI技术体验、新手入门教程、智能创作工具及深度搜索服务，支持企业级人脸认证、定制化大模型、零门槛开发平台EasyDL与全流程BML部署，并开放多语言文字识别、高精度图像识别、语音合成及证件票据专用API接口，满足个人与企业多样化需求。

2025-11-24 00:31:24

214

夸克AI搜索怎么做数学题_夸克AI搜索解决数学问题的技巧答案可通过优化输入和AI功能提升解题效果：一、精准输入题目内容，使用标准符号并保持原文结构；二、高效拍照搜题，注意光线与角度，并检查智能裁剪范围；三、利用AI解析查看分步思路，通过追问深化理解；四、结合题库验证答案，参考相似题与视频讲解确保准确性。

2025-11-23 23:59:31

908

百度AI网页版智能进入百度AI网页版高效登录百度AI网页版高效登录方法是直接访问官网或通过百度首页AI入口进入。用户可输入账号密码登录，新用户支持手机号一键注册，多端同步历史记录。

2025-11-23 23:57:15

237

豆包网页版登录中心_豆包网页版安全访问系统首先检查网络连接是否稳定，确认Wi-Fi正常并能访问其他网站；接着更换浏览器如Chrome或Edge尝试登录；清除浏览器缓存与Cookie数据；禁用可能干扰的扩展程序；最后确保系统时间与日期已自动同步，避免因时间偏差导致验证失败。

2025-11-23 23:52:02

679

claude3如何链接插件_claude3插件链接集成及扩展能力开发要增强Claude3功能需通过插件集成，首先在平台设置中启用插件权限并开启API调用，随后配置插件接口信息与认证方式，接着注册插件元数据并激活，再利用官方SDK开发自定义扩展，最后全面测试交互流程确保稳定性。

2025-11-23 23:49:02

852

chatgpt5怎么处理多语言_chatgpt5多语言支持切换及翻译功能使用详解首先启用多语言识别功能，确保输入文本语种单一并在非英语内容前添加语言标识符如[lang:zh]；其次通过“请用日语回答”或“RespondinSpanish”等指令手动切换输出语言；接着使用“将以下文字翻译成德语”等命令调用翻译模式，并可指定风格与分段处理以提升质量；最后在API中设置preferred_language字段或于客户端配置LanguagePreferences以实现个性化语言偏好。

2025-11-23 23:48:05

252

松鼠AI怎么使用智能测评卷_松鼠AI入学测评与月考测评操作教程通过松鼠AI智能测评卷进行入学和月考测评，可精准定位学生知识漏洞并生成个性化学习路径：首先登录系统完成入学测评，选择年级、科目及教材版本，在规定时间内提交试卷后获取详细报告；随后查看“我的报告”中的掌握率曲线图，重点关注红黄色知识点，结合错题解析与教学视频查漏补缺，并制定定制化学习计划；每月参与一次月考测评，系统快速生成新报告，对比数据变化评估学习效果；最后依据累计测评数据动态优化学习路径，系统自动调整学习内容顺序与难度，对高频错误知识点增加专项训练并回溯基础，确保学习效率持续提升。

2025-11-23 23:46:02

357

deepseek官网使用指南_deepseek网页版登录入口 deepseek网页版登录入口为https://chat.deepseek.com，用户可通过浏览器访问并选择手机号、邮箱或微信扫码登录，新用户使用中国大陆手机号可自动注册。

2025-11-23 23:45:23

144

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部