微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

OpenAI 发布 GPT-realtime 语音对话模型

花韻仙語

发布： 2025-08-29 14:25:43

原创

991人浏览过

openai 正式发布全新语音模型 gpt-realtime，这是一款专为语音ai智能体设计的多模态模型，具备生成高度自然流畅语音的能力，可精准复现人类丰富的语调变化、情感表达及语速节奏。该模型支持图像理解，并能将视觉信息与语音或文本对话无缝融合，广泛适用于客服、教育、金融、医疗等场景中的语音智能体构建。

GPT-realtime 采用端到端的音频处理架构，直接对音频输入进行解析并生成回应，大幅降低响应延迟。此次更新推出了两种全新风格的语音——Marin 与 Cedar，同时对原有8种语音音色完成了全面优化升级。

据 OpenAI 介绍，该模型展现出更强的理解能力，尤其在母语语音识别方面表现更优。它能够识别非语言信号（如笑声）、实现句中语码切换，并根据情境调整语气风格（例如“简洁专业”或“亲切体贴”）。

内部测试显示，GPT-realtime 在识别多种语言（包括西班牙语、中文、日语和法语）中的字母数字序列（如电话号码、车辆识别码等）任务中，准确率显著提升。在 Big Bench Audio 基准测试中，其推理能力得分达到 82.8%，远高于2024年12月发布的前一版本（65.6%）。

OpenAI 发布 GPT-realtime 语音对话模型

在衡量指令遵循能力的 MultiChallenge 音频基准测试中，gpt-realtime 得分为 30.5%，相较上一代模型的 20.6% 实现了明显进步。

AI Sofiya

AI Sofiya

一款AI驱动的多功能工具

AI Sofiya

109

AI Sofiya

OpenAI 发布 GPT-realtime 语音对话模型

此外，GPT-realtime 增强了函数调用功能，新增对图像输入的支持，使得对话可基于视觉内容展开。多项API改进也让集成更加便捷，为开发者提供了更高的灵活性与可扩展性。

OpenAI 发布 GPT-realtime 语音对话模型

值得一提的是，本次模型的研发团队中包括两位95后华人研究员 Beichen Li 和 Liyu Chen。其中，Beichen Li 毕业于麻省理工学院（MIT），主要研究方向聚焦于计算机图形学与机器学习的交叉领域。

以上就是OpenAI 发布 GPT-realtime 语音对话模型的详细内容，更多请关注php中文网其它相关文章！

相关标签：

ai openai 架构 li gpt

大家都在看：

微软 AI 首席执行官：听到有人说 AI 不怎么样，我忍不住笑了魅族总部大楼疑似挂牌出售，标价 2.5 亿元雷军：AI Car 就是未来的发展趋势 Gitee AI 队友新升级：PR 审查更智能，安全治理更灵活，个人用户也能用！瑞典 AI 低代码平台 Lovable 估值冲向 60 亿美元，ARR 突破 2 亿

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：海尔洗衣机H1份额、增速齐领跑双重挤压下谁在掉队下一篇：SuperCLUE 多模态视觉 8 月评测榜：Gemini-2.5-Pro 位居第一

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Mac截图全攻略：快捷键一览

2025-11-19 12:30:02
Tkinter Menubutton与Menu正确关联指南

2025-11-19 12:34:26
解决IIS URL重写规则导致静态资源加载失败的问题

2025-11-19 12:42:36
《CEDEC 2026》7月22日举行日本最大游戏开发者大会

2025-11-19 12:45:02
NumPy reshape 深度解析：方法与函数的差异与应用

2025-11-19 12:47:00
在Gravis可视化NetworkX图时为节点添加交互式工具提示

2025-11-19 12:50:02
解决Symfony本地应用连接Docker容器数据库的指南

2025-11-19 12:50:21
利用Flask和Jinja2在表单提交后显示成功或错误消息

2025-11-19 12:51:34
PHP API开发中JSON响应前的HTML输出问题解析与解决方案

2025-11-19 12:56:02
使用Python高效识别和处理CSV文件中的列数不一致及编码问题

2025-11-19 12:56:57

最新问题

全网第一位 Gemini 3 受害者：AI Coding 被删掉 800GB 重要文件谷歌昨日正式推出全新一代AI模型Gemini3，凭借其卓越的编程能力迅速吸引了大量开发者上手体验。然而，“VibeCoding”虽然畅快，一旦出事却可能让人追悔莫及。一名开发者在社交平台发帖控诉：“关于Gemini3一口气删掉我800G核心数据这件事”。他在文中透露，自己在测试Gemini3的代码生成功能时，遇到一个技术问题并请求AI协助解决。不料，Gemini3在处理过程中执行了错误操作，导致其本地800GB的关键文件被彻底删除。事发后现场仅留下一张截图作为证据，连同他

2025-11-20 21:39:01

649

Nvidia 与 OpenAI 的百亿美元投资协议存不确定性两个月前，NvidiaCEO黄仁勋与OpenAI掌门人山姆・奥尔特曼在加州圣荷西携手发布了一项里程碑式的合作计划：Nvidia将在未来数年向OpenAI投入高达1000亿美元的资金支持。这笔巨额资金将随着OpenAI新一代AI超算中心的逐步启用而分阶段注入，但目前关于数据中心的具体建设进度以及各阶段投入成本等细节仍未公开。不过，在Nvidia最新发布的季度财报中，公司向投资者发出警示：当前公告的内容并不等同于最终签署的法律合同。财报中的风险提示部分明确指出：“我们无法保证与OpenAI

2025-11-20 20:41:01

1009

OpenAI 发布企业 AI 评估框架指南 OpenAI近日推出了一套面向企业的人工智能评估框架指南，旨在协助企业将战略目标转化为可量化的AI成果，推动AI技术的大规模应用并实现可观的投资回报。据悉，全球已有超百万家企业采用OpenAI的技术方案，其内部团队也通过构建数十种定制化评估体系，持续优化模型在具体产品和业务流程中的实际表现。该评估框架包含三个核心步骤：Specify（定义）：清晰界定AI所承担的任务流程、关键输入与输出要素、潜在的失败情形，并借助跨职能专家协作快速建立高质量的参考案例库。Measure（衡量）：搭建贴近真

2025-11-20 20:21:05

998

黄仁勋否认“AI 泡沫论”：我们看到的情况截然不同英伟达首席执行官黄仁勋在最近的财报电话会议中回应了外界热议的“AI泡沫”问题。他表示：“尽管市场上充斥着关于AI是否过热的讨论，但从我们的立场来看，现实完全不同。”他强调，当前所经历的并非短暂的投机热潮，而是一场深刻的“结构性变革”。这一转变主要体现在三大方向：计算基础设施的重塑、生成式人工智能的崛起，以及“智能代理／物理世界AI”（即agenticAI）的快速发展。黄仁勋指出，数据处理、广告推荐、搜索引擎和工程研发等多个领域正加速采用GPU，原因在于这些任务越来越依赖AI技术。这标志着

2025-11-20 20:20:02

936

诺基亚组织架构调整，公布 AI 新战略诺基亚在2025年资本市场日上宣布了一项全新战略，旨在引领由人工智能（AI）驱动的网络变革，并充分把握AI超级周期所带来的增长机遇。公司同时发布了更新后的长期财务目标、关键业务绩效指标（KPI）、运营架构优化方案以及集团管理层的调整计划。为更高效地实施新战略，诺基亚将运营结构简化为两大核心业务部门：网络基础设施（NetworkInfrastructure）与移动基础设施（MobileInfrastructure）。此次转型致力于加强技术创新路径、提升客户支持能力并增强股东回报。诺基亚设定目标，到

2025-11-20 20:17:32

678

魅族科技确认不搬新总部：魅族科技大楼租期还很长，会一直陪着大家 11月20日消息，魅族科技官方今日公布了「魅族22影像集训冬令营」的实拍样张，展示了魅族22与OPPOFindX9、vivoX300、小米17Pro以及iPhone17Pro四款旗舰机型的影像对比。官方指出，在日常拍摄中常见的逆光与弱光环境下，各机型对暗部细节的还原能力以及远景虚化的表现，均具备极高的参考与学习价值。值得关注的是，有网友在该条微博评论区提问魅族是否会迁入新总部。对此，魅族科技官方回应称：“不会搬迁，魅族科技大楼的租赁期限仍很长久，我们将继续在此陪伴大家，

2025-11-20 20:07:01

253

微软 AI 首席执行官：听到有人说 AI 不怎么样，我忍不住笑了微软AI首席执行官MustafaSuleyman近日在X（前Twitter）上发表言论，回应了用户对Windows中AI功能（如Copilot）的批评。他表示，对于一些人认为这些AI能力“平庸”感到意外，并强调能够实现自然对话、图像与视频生成的AI技术已是巨大飞跃，不应被轻视。科技圈活跃人物马斯克也迅速在该推文下留言附和：Goodpoint。这场讨论源于微软将Windows打造成“代理型操作系统”（agenticOS）的整体战略。此前，Windows高管Pava

2025-11-20 20:06:01

641

广东：到 2027 年人工智能核心产业规模超过 4400 亿元广东省人民政府印发《广东省国家数字经济创新发展试验区建设方案（2025—2027年）》。明确到2027年，全省数字经济发展水平持续保持全国领先，数字经济核心产业增加值占地区生产总值比重突破16%，培育形成3个具备国际影响力的万亿级数字产业集群，打造一批高成长性的新兴数字产业赛道，数据产业规模年均复合增速超过15%，人工智能核心产业规模达到4400亿元以上，规模以上工业企业完成数字化转型超6万家，算力总规模跃升至60EFLOPS（每秒浮点运算次数），全力将广东建设成为具有全球竞争力的数字经济发展高

2025-11-20 19:25:02

146

魅族总部大楼疑似挂牌出售，标价 2.5 亿元感谢网友Mo_Onster、冈崎汐、某咸鱼的小号、AI助理的线索投递！11月20日消息，58同城平台显示，位于广东省珠海市高新区唐家湾的一处高端综合办公园区目前处于出售状态，房源发布人为黄先生，标价为2.5亿元，总建筑面积约为23848.55平方米。▲根据魅族官网展示的总部大楼图片进行比对，该出售物业在百度地图上被标记为“魅族科技楼”，其建筑外观与魅族官网公布的总部形象高度一致，仅缺少了原有的魅族Logo和品牌标识。公开资料显示，魅族（MEIZU）成立于2003年，拥有近2

2025-11-20 19:06:31

587

MOSS-Speech 发布：真正的语音到语音大模型国内AI领域最具影响力的学者之一——复旦大学计算机学院邱锡鹏教授及其团队学生近期推出了全新语音大模型MOSS-Speech，宣称实现了真正意义上的语音到语音（Speech-to-Speech）交互。据项目官方介绍，该模型标志着中国在语音人工智能领域迈入“端到端语音交互”的新纪元。与传统依赖“语音识别→文本处理→语音合成”三段式流程不同，MOSS-Speech能直接从输入语音理解语义，并以语音形式生成回应，全程无需转化为文本中转。这一架构使得系统在回应过程中可保留并传递语调、情感、笑声等非语言信息

2025-11-20 19:05:01

821

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部