微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

MOSS-Speech 发布：真正的语音到语音大模型

DDD

发布： 2025-11-20 19:05:01

原创

821人浏览过

moss-speech 发布：真正的语音到语音大模型

国内AI领域最具影响力的学者之一——复旦大学计算机学院邱锡鹏教授及其团队学生近期推出了全新语音大模型 MOSS-Speech，宣称实现了真正意义上的语音到语音（Speech-to-Speech）交互。

据项目官方介绍，该模型标志着中国在语音人工智能领域迈入“端到端语音交互”的新纪元。与传统依赖“语音识别→文本处理→语音合成”三段式流程不同，MOSS-Speech 能直接从输入语音理解语义，并以语音形式生成回应，全程无需转化为文本中转。这一架构使得系统在回应过程中可保留并传递语调、情感、笑声等非语言信息，显著提升对话的自然度与人性化体验。

MOSS-Speech 发布：真正的语音到语音大模型

MOSS-Speech 的核心技术亮点包括：

原生语音到语音建模：彻底摆脱对文本解码的依赖。
分层解耦结构设计：在已有文本大模型基础上扩展专用语音模块。
冻结式训练策略：保持原始语言模型能力的同时融合语音理解与生成功能。
领先性能表现：在多项语音问答和语音交互任务中达到当前最优水平（SOTA）。

在权威语音到语音转换评测中，MOSS-Speech 取得了业界领先的指标成绩。

FashionLabs

FashionLabs

AI服装模特、商品图，可商用，低价提升销量神器

FashionLabs

38

FashionLabs

预训练阶段模型评估结果

MOSS-Speech 发布：真正的语音到语音大模型

指令微调后模型测试表现

MOSS-Speech 发布：真正的语音到语音大模型

了解更多详情请访问以下资源

视频演示地址：https://www.php.cn/link/9983a45ec612b9372871ef63ee241b31
在线交互体验：https://www.php.cn/link/57a9d589fa03ef4795f38f84306486c4
GitHub 项目主页：https://www.php.cn/link/596f8ff563daa92917b1ca6544055638
技术文档下载：https://www.php.cn/link/596f8ff563daa92917b1ca6544055638/blob/main/papers/MOSS-Speech Technical Report.pdf

源码获取链接：立即下载

以上就是MOSS-Speech 发布：真正的语音到语音大模型的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git github 计算机人工智能 ai pdf 大模型架构 github 人工智能 https

大家都在看：

JetBrains 宣布 DataGrip 面向非商业用途免费开源 IDE 项目 Zed 完成 3200 万美元 B 轮融资 xsha v0.4.0 版本发布 | AI 驱动的项目开发平台 HarmonyOS app怎么开发,鸿蒙app开发难不难？华为：新开发者可免费申请一台云主机、一套开发工具及 5GB 存储空间

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：雷军：AI Car 就是未来的发展趋势下一篇：魅族总部大楼疑似挂牌出售，标价 2.5 亿元

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

永远的蔚蓝星球青羽聆风皮肤箱兑换推荐

2025-11-19 16:15:02
Go语言中同时运行多个Web服务器的实践指南

2025-11-19 16:17:00
至少5400mAh！折叠屏iPhone电池容量刷新纪录了……

2025-11-19 16:18:01
Linus 表示可以接受“Vibe Coding”，但不适合在生产环境使用

2025-11-19 16:19:01
《海绵宝宝：潮汐巨神》多平台发售 3D动作冒险

2025-11-19 16:19:14
深入理解Firebase异步操作：解决方法返回null/0的问题

2025-11-19 16:19:25
《回音：飞艇传说》开发者回顾新品节：感谢中国玩家的帮助

2025-11-19 16:20:12
《我们之中》联动《星露谷物语》开启大量特色奖励

2025-11-19 16:21:01
Go语言泛型概念解析：理解其在静态类型编程中的作用与意义

2025-11-19 16:21:19
Steam客户端更新:解决PS5手柄蓝牙连接陀螺仪故障等

2025-11-19 16:21:45

最新问题

全网第一位 Gemini 3 受害者：AI Coding 被删掉 800GB 重要文件谷歌昨日正式推出全新一代AI模型Gemini3，凭借其卓越的编程能力迅速吸引了大量开发者上手体验。然而，“VibeCoding”虽然畅快，一旦出事却可能让人追悔莫及。一名开发者在社交平台发帖控诉：“关于Gemini3一口气删掉我800G核心数据这件事”。他在文中透露，自己在测试Gemini3的代码生成功能时，遇到一个技术问题并请求AI协助解决。不料，Gemini3在处理过程中执行了错误操作，导致其本地800GB的关键文件被彻底删除。事发后现场仅留下一张截图作为证据，连同他

2025-11-20 21:39:01

649

Nvidia 与 OpenAI 的百亿美元投资协议存不确定性两个月前，NvidiaCEO黄仁勋与OpenAI掌门人山姆・奥尔特曼在加州圣荷西携手发布了一项里程碑式的合作计划：Nvidia将在未来数年向OpenAI投入高达1000亿美元的资金支持。这笔巨额资金将随着OpenAI新一代AI超算中心的逐步启用而分阶段注入，但目前关于数据中心的具体建设进度以及各阶段投入成本等细节仍未公开。不过，在Nvidia最新发布的季度财报中，公司向投资者发出警示：当前公告的内容并不等同于最终签署的法律合同。财报中的风险提示部分明确指出：“我们无法保证与OpenAI

2025-11-20 20:41:01

1009

OpenAI 发布企业 AI 评估框架指南 OpenAI近日推出了一套面向企业的人工智能评估框架指南，旨在协助企业将战略目标转化为可量化的AI成果，推动AI技术的大规模应用并实现可观的投资回报。据悉，全球已有超百万家企业采用OpenAI的技术方案，其内部团队也通过构建数十种定制化评估体系，持续优化模型在具体产品和业务流程中的实际表现。该评估框架包含三个核心步骤：Specify（定义）：清晰界定AI所承担的任务流程、关键输入与输出要素、潜在的失败情形，并借助跨职能专家协作快速建立高质量的参考案例库。Measure（衡量）：搭建贴近真

2025-11-20 20:21:05

998

黄仁勋否认“AI 泡沫论”：我们看到的情况截然不同英伟达首席执行官黄仁勋在最近的财报电话会议中回应了外界热议的“AI泡沫”问题。他表示：“尽管市场上充斥着关于AI是否过热的讨论，但从我们的立场来看，现实完全不同。”他强调，当前所经历的并非短暂的投机热潮，而是一场深刻的“结构性变革”。这一转变主要体现在三大方向：计算基础设施的重塑、生成式人工智能的崛起，以及“智能代理／物理世界AI”（即agenticAI）的快速发展。黄仁勋指出，数据处理、广告推荐、搜索引擎和工程研发等多个领域正加速采用GPU，原因在于这些任务越来越依赖AI技术。这标志着

2025-11-20 20:20:02

935

诺基亚组织架构调整，公布 AI 新战略诺基亚在2025年资本市场日上宣布了一项全新战略，旨在引领由人工智能（AI）驱动的网络变革，并充分把握AI超级周期所带来的增长机遇。公司同时发布了更新后的长期财务目标、关键业务绩效指标（KPI）、运营架构优化方案以及集团管理层的调整计划。为更高效地实施新战略，诺基亚将运营结构简化为两大核心业务部门：网络基础设施（NetworkInfrastructure）与移动基础设施（MobileInfrastructure）。此次转型致力于加强技术创新路径、提升客户支持能力并增强股东回报。诺基亚设定目标，到

2025-11-20 20:17:32

678

魅族科技确认不搬新总部：魅族科技大楼租期还很长，会一直陪着大家 11月20日消息，魅族科技官方今日公布了「魅族22影像集训冬令营」的实拍样张，展示了魅族22与OPPOFindX9、vivoX300、小米17Pro以及iPhone17Pro四款旗舰机型的影像对比。官方指出，在日常拍摄中常见的逆光与弱光环境下，各机型对暗部细节的还原能力以及远景虚化的表现，均具备极高的参考与学习价值。值得关注的是，有网友在该条微博评论区提问魅族是否会迁入新总部。对此，魅族科技官方回应称：“不会搬迁，魅族科技大楼的租赁期限仍很长久，我们将继续在此陪伴大家，

2025-11-20 20:07:01

253

微软 AI 首席执行官：听到有人说 AI 不怎么样，我忍不住笑了微软AI首席执行官MustafaSuleyman近日在X（前Twitter）上发表言论，回应了用户对Windows中AI功能（如Copilot）的批评。他表示，对于一些人认为这些AI能力“平庸”感到意外，并强调能够实现自然对话、图像与视频生成的AI技术已是巨大飞跃，不应被轻视。科技圈活跃人物马斯克也迅速在该推文下留言附和：Goodpoint。这场讨论源于微软将Windows打造成“代理型操作系统”（agenticOS）的整体战略。此前，Windows高管Pava

2025-11-20 20:06:01

641

广东：到 2027 年人工智能核心产业规模超过 4400 亿元广东省人民政府印发《广东省国家数字经济创新发展试验区建设方案（2025—2027年）》。明确到2027年，全省数字经济发展水平持续保持全国领先，数字经济核心产业增加值占地区生产总值比重突破16%，培育形成3个具备国际影响力的万亿级数字产业集群，打造一批高成长性的新兴数字产业赛道，数据产业规模年均复合增速超过15%，人工智能核心产业规模达到4400亿元以上，规模以上工业企业完成数字化转型超6万家，算力总规模跃升至60EFLOPS（每秒浮点运算次数），全力将广东建设成为具有全球竞争力的数字经济发展高

2025-11-20 19:25:02

146

魅族总部大楼疑似挂牌出售，标价 2.5 亿元感谢网友Mo_Onster、冈崎汐、某咸鱼的小号、AI助理的线索投递！11月20日消息，58同城平台显示，位于广东省珠海市高新区唐家湾的一处高端综合办公园区目前处于出售状态，房源发布人为黄先生，标价为2.5亿元，总建筑面积约为23848.55平方米。▲根据魅族官网展示的总部大楼图片进行比对，该出售物业在百度地图上被标记为“魅族科技楼”，其建筑外观与魅族官网公布的总部形象高度一致，仅缺少了原有的魅族Logo和品牌标识。公开资料显示，魅族（MEIZU）成立于2003年，拥有近2

2025-11-20 19:06:31

587

MOSS-Speech 发布：真正的语音到语音大模型国内AI领域最具影响力的学者之一——复旦大学计算机学院邱锡鹏教授及其团队学生近期推出了全新语音大模型MOSS-Speech，宣称实现了真正意义上的语音到语音（Speech-to-Speech）交互。据项目官方介绍，该模型标志着中国在语音人工智能领域迈入“端到端语音交互”的新纪元。与传统依赖“语音识别→文本处理→语音合成”三段式流程不同，MOSS-Speech能直接从输入语音理解语义，并以语音形式生成回应，全程无需转化为文本中转。这一架构使得系统在回应过程中可保留并传递语调、情感、笑声等非语言信息

2025-11-20 19:05:01

821

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Git 教程

14914次学习
收藏
Git版本控制工具

14477次学习
收藏
Git中文开发手册

0次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部