ZipVoice— 小米推出的零样本语音合成模型-人工智能-PHP中文网

ZipVoice— 小米推出的零样本语音合成模型

DDD

发布： 2025-09-16 11:59:14

原创

571人浏览过

ZipVoice是什么

zipvoice 是由小米集团 ai 实验室推出的一款高效零样本语音合成（text-to-speech, tts）模型。该模型基于 flow matching 架构，包含两个版本：适用于单人语音合成的 zipvoice 和专为对话语音设计的 zipvoice-dialog。通过引入多项创新技术，如基于 zipformer 的轻量化结构、平均上采样策略以及 flow distillation 方法，zipvoice 实现了在低参数量下的高速推理与高质量语音生成，有效解决了传统tts模型普遍存在的计算开销大、响应速度慢等问题。其中，zipvoice-dialog 利用说话人轮次嵌入和课程学习机制，能够稳定且自然地合成双人对话场景中的语音。

Tellers AI

Tellers是一款自动视频编辑工具，可以将文本、文章或故事转换为视频。

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
ZipVoice的主要功能

零样本语音合成能力：仅需输入文本和一段参考语音，即可合成出具备目标音色特征的声音，无需针对特定说话人进行大量训练数据准备。
极速推理性能：采用 Flow Distillation 等先进技术优化推理流程，大幅降低生成所需步数，提升合成效率，可在资源受限设备上流畅运行。
高保真语音输出：在保证快速生成的同时，维持出色的语音自然度、清晰度及与参考语音的高度相似性。
支持对话语音生成：ZipVoice-Dialog 可实现双人交替对话的语音合成，精准完成说话人切换，适用于AI播客、虚拟角色对话等复杂语音交互场景。
全面开源开放：项目已公开发布模型权重、训练与推理代码，并配套开源对话语音数据集 OpenDialog，便于研究人员与开发者二次开发与拓展应用。

ZipVoice的技术原理

Zipformer 高效架构集成：首次将 Zipformer 引入语音合成任务中，利用其多尺度处理能力、卷积与注意力协同机制以及注意力权重复用策略，显著压缩模型体积并提升运算效率。
平均上采样对齐方法：提出一种简化的时间对齐策略，假设每个文本 token 持续时长相等，进行均匀上采样后送入声学模型，提供稳定的初始对齐信号，加快训练收敛并增强对齐稳定性。
Flow Distillation 加速推理：借助教师-学生框架结合 Classifier-free Guidance（CFG）技术，训练学生模型以一步推理逼近教师模型输出，消除 CFG 带来的额外计算负担，实现极快推理速度。
说话人轮次嵌入机制：在对话语音建模中引入 Speaker-Turn Embedding，为模型提供明确的说话人身份标识，精细化控制角色切换，提高语音归属准确性。
课程学习训练范式：先使用单说话人数据预训练模型，强化文本-语音对齐能力；再在对话语音数据上微调，逐步学习角色转换与自然对话节奏，应对复杂语境下的对齐挑战。
立体声生成扩展技术：通过合理的权重初始化、单声道语音正则项设计及说话人互斥损失函数，使 ZipVoice-Dialog 支持双声道输出，增强对话空间感与沉浸体验。