小米集团AI实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。
作为 zipformer 在语音生成任务上的应用和探索,ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。
模型性能
我们在零样本语音合成模型评测常用的LibriSpeech-PC test-clean、Seed-TTS test-en和test-zh测试集上与现有的多个SOTA(state-of-the-art)模型进行了对比。
实验结果表明,ZipVoice和ZipVoice-Distill在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度(SIM-o)、词错误率(WER)和UTMOS,以及两个主观指标(CMOS、SMOS)上都极具竞争力,达到了零样本语音合成模型的SOTA性能水平,同时显著减少了模型参数量,加快了推理速度。
ZipVoice零样本语音合成模型具备了低参数量、高推理速度、高语音质量三大优点,ZipVoice-Dialog提供了又快又稳又好的对话语音合成新方案。ZipVoice系列模型为轻量化、高速度要求的语音交互应用场景提供了新的解决方案。