Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。
当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。
01. Highlights
1. 开源了两个模型:1)在多样化长音频数据集上预训练的基础模型,能实现零样本TTS合成;2)在单一说话人上进行监督微调(SFT)的模型,以此提升TTS性能。
2. 提供了详细的训练方法:提供了从base模型在单一speaker语音数据上微调得到SFT模型的训练方法,也开源了全部的训练代码,以满足开发者对于更深层研究的需求。
3. 提供了优化推理效率的框架:我们开发了一个加速的TTS推理框架,尤其优化LLM组件,能够更快速、更高效生成语音。
4. 英语上具有良好性能的同时推理效率极高:每1s语音生成仅需0.33秒推理时间,为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。
02.
模型设计
Muyan-TTS在建模架构上,延续了GPT-SoVITS的两阶段结构,并作出如下调整:
-
语言模型部分以Llama-3.2-3B为backbone继续预训练,具备更强的语义建模能力。
-
解码器部分使用 SoVITS 架构,在大规模高质量长音频数据上进行了微调,提高合成音频表现力与保真度的同时,也保持了稳定性并削弱了因LLM所带来的幻觉。
这样的模型设计在保证合成质量的同时,兼顾了个性化能力和运行效率,适配多种音频内容形式,如主持人旁白、访谈复刻、语音摘要等。
03.
面向长音频的数据处理
为了优化Muyan-TTS在长音频生成场景下的表现,我们构建了超过10万小时的高质量语音及对应转录的训练语料。数据处理采用三阶段流程:
-
收集与转录:结合开源数据集与自建数据源采集,基于最大化覆盖说话人数和语言的差异性的目标,每个音频被分割成1分钟的片段均匀采样,收集了超过15万小时的原始数据并使用Whisper和Fun ASR进行转录;
-
音频清洗:引入MSS、DeReverb、DeEcho、Denoise、NeMo等模块,仅保留人声轨道、单speaker、过滤背景噪声与混响、进一步提升语音的清晰度和可理解性;
-
质量过滤:使用 NISQA 评估每段音频的MOS分数,仅保留MOS>3.8内容。
最终数据集通过 NVIDIA A10 机器完成预处理,总清洗时长约为 60,000 GPU小时。
04.
训练策略与资源成本
我们的训练分为三个阶段:
阶段一:基于清洗的语音-文本平行语料继续预训练大语言模型,获取zero-shot TTS的能力。在80张A100组成的计算集群上训练了约10天。
阶段二:在单一speaker数据上基于base模型SFT,提升特定声音的合成效果。训练成本相比预训练可以忽略不计。
阶段三:SoVITS解码器微调,对高质量长音频片段(MOS>4.5)进行专向训练,强化语音自然度与清晰度。
整个训练过程消耗的资源与成本如下:
05.
实验评测
推理优化与部署适配
针对LLM在推理端的高延迟痛点,Muyan-TTS构建了一套系统性优化方案:一方面,深度集成vLLM推理引擎,充分释放大语言模型的并行计算潜力,显著提升推理效率;另一方面,创新引入动态句长切分与批量处理合成技术,有效减少资源等待时间,增强处理灵活性。
经实测验证,在非流式推理模式下,Muyan-TTS的语音合成效率表现卓越——平均每生成1秒语音仅需0.33秒推理时间,相比同类开源TTS模型具有显著性能优势,为实时语音交互场景提供了更高效的解决方案。
性能对比
在LibriSpeech和SEED两大标准评测集上,我们评估了Muyan-TTS与主流开源TTS模型的性能表现,主要指标涵盖词错率(WER)、语音质量评分(MOS)与说话人相似度(SIM):
同时,在微调(SFT)后,Muyan-TTS在语音质量(MOS)与个性化能力(SIM)方面进一步提升,适配小规模个人语音数据集的声音定制。
生成示例
我们相信就像《her》中的Samantha,语音会成为人和AI交互的核心方式,并使每个人都能拥有随时可交流的AI朋友。
Muyan-TTS只是我们在语音技术上一个非常微小的尝试,无论是模型结构、数据制备和训练方法都还有很大的改良空间,我们也期待对语音技术有爱好、愿意深度研究TTS和实时语音交互等领域的朋友能够一起加入这个行列。