Muyan-TTS

访问网站

Muyan-TTS，一款低成本、具备良好二次开发支持的模型并完全开源，以方便学术界和小型应用团队的音频技术爱好者。

当前开源的Muyan-TTS版本由于训练数据规模有限，致使其仅对英语语种呈现出良好的支持效果。不过，得益于与之同步开源的详尽训练方法，从事相关行业的开发者能够依据自身实际业务场景，灵活地对Muyan-TTS进行功能升级与定制化改造。

01. Highlights

1. 开源了两个模型：1）在多样化长音频数据集上预训练的基础模型，能实现零样本TTS合成；2）在单一说话人上进行监督微调（SFT）的模型，以此提升TTS性能。

2. 提供了详细的训练方法：提供了从base模型在单一speaker语音数据上微调得到SFT模型的训练方法，也开源了全部的训练代码，以满足开发者对于更深层研究的需求。

3. 提供了优化推理效率的框架：我们开发了一个加速的TTS推理框架，尤其优化LLM组件，能够更快速、更高效生成语音。

4. 英语上具有良好性能的同时推理效率极高：每1s语音生成仅需0.33秒推理时间，为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。

02.

模型设计

Muyan-TTS在建模架构上，延续了GPT-SoVITS的两阶段结构，并作出如下调整：

语言模型部分以Llama-3.2-3B为backbone继续预训练，具备更强的语义建模能力。

解码器部分使用 SoVITS 架构，在大规模高质量长音频数据上进行了微调，提高合成音频表现力与保真度的同时，也保持了稳定性并削弱了因LLM所带来的幻觉。

这样的模型设计在保证合成质量的同时，兼顾了个性化能力和运行效率，适配多种音频内容形式，如主持人旁白、访谈复刻、语音摘要等。

03.

面向长音频的数据处理

为了优化Muyan-TTS在长音频生成场景下的表现，我们构建了超过10万小时的高质量语音及对应转录的训练语料。数据处理采用三阶段流程：

收集与转录：结合开源数据集与自建数据源采集，基于最大化覆盖说话人数和语言的差异性的目标，每个音频被分割成1分钟的片段均匀采样，收集了超过15万小时的原始数据并使用Whisper和Fun ASR进行转录；

音频清洗：引入MSS、DeReverb、DeEcho、Denoise、NeMo等模块，仅保留人声轨道、单speaker、过滤背景噪声与混响、进一步提升语音的清晰度和可理解性；

质量过滤：使用 NISQA 评估每段音频的MOS分数，仅保留MOS>3.8内容。

最终数据集通过 NVIDIA A10 机器完成预处理，总清洗时长约为 60,000 GPU小时。

04.

训练策略与资源成本

我们的训练分为三个阶段：

阶段一：基于清洗的语音-文本平行语料继续预训练大语言模型，获取zero-shot TTS的能力。在80张A100组成的计算集群上训练了约10天。

阶段二：在单一speaker数据上基于base模型SFT，提升特定声音的合成效果。训练成本相比预训练可以忽略不计。

阶段三：SoVITS解码器微调，对高质量长音频片段（MOS>4.5）进行专向训练，强化语音自然度与清晰度。

整个训练过程消耗的资源与成本如下：

05.

实验评测

推理优化与部署适配

针对LLM在推理端的高延迟痛点，Muyan-TTS构建了一套系统性优化方案：一方面，深度集成vLLM推理引擎，充分释放大语言模型的并行计算潜力，显著提升推理效率；另一方面，创新引入动态句长切分与批量处理合成技术，有效减少资源等待时间，增强处理灵活性。

经实测验证，在非流式推理模式下，Muyan-TTS的语音合成效率表现卓越——平均每生成1秒语音仅需0.33秒推理时间，相比同类开源TTS模型具有显著性能优势，为实时语音交互场景提供了更高效的解决方案。

性能对比

在LibriSpeech和SEED两大标准评测集上，我们评估了Muyan-TTS与主流开源TTS模型的性能表现，主要指标涵盖词错率（WER）、语音质量评分（MOS）与说话人相似度（SIM）：

同时，在微调（SFT）后，Muyan-TTS在语音质量（MOS）与个性化能力（SIM）方面进一步提升，适配小规模个人语音数据集的声音定制。

生成示例

Base Model

SFT Model

我们相信就像《her》中的Samantha，语音会成为人和AI交互的核心方式，并使每个人都能拥有随时可交流的AI朋友。

Muyan-TTS只是我们在语音技术上一个非常微小的尝试，无论是模型结构、数据制备和训练方法都还有很大的改良空间，我们也期待对语音技术有爱好、愿意深度研究TTS和实时语音交互等领域的朋友能够一起加入这个行列。

分类导航

Muyan-TTS

吡非尼酮联合糖皮质激素改善2-3级放射性肺损伤的气体交换：2期多中心随机试验

Ezabenlimab联合mDCF诱导治疗及适应性放化疗在III期肛管鳞状细胞癌中的高完全缓解率（INTERACT-ION）

移植后环磷酰胺似乎中和了老年非亲属供者年龄对异基因HCT后生存的不利影响

单个HLA-DQB1错配和供者年龄不会恶化使用移植后环磷酰胺的无关供者造血细胞移植后的生存率：单中心分析

Nirsevimab 将婴儿 RSV 毛细支气管炎风险减半 —— 尽管出现 RSV-B 突变，高有效性仍持续

经房间隔途径的SAPIEN M3经导管二尖瓣置换术（TMVR）降低手术或TEER不适宜患者的1年死亡率/心力衰竭再住院率

并非所有抗抑郁药都相同：大型网络荟萃分析显示的心脏代谢和生理效应差异

成人功能性肠-脑交互障碍中ARFID症状高发：基于人群的研究提示常规筛查需求

锰暴露在阿尔茨海默病小鼠模型中差异性破坏谷氨酸清除、脑电图和睡眠

鱼油补充剂可使透析患者严重心血管事件减少一半：PISCES随机试验结果

IgA 肾病新型治疗方法的比较分析：重点介绍阿塔西普和新兴疗法

利那曲巴特用于原发性胆汁性胆管炎的胆汁淤积性瘙痒：来自III期GLISTEN试验及相关研究的见解

Cilofexor 未能防止非硬化性原发性硬化性胆管炎纤维化进展：来自 PRIMIS 3 期试验的结果

Efimosfermin Alfa (BOS-580) 在表型代谢功能障碍相关性脂肪性肝炎中的应用：2a 期临床和转化研究综述

EASE-CD：一种有效且响应性的内镜溃疡活动评分，推动克罗恩病的结局测量

克罗恩病术后内镜评分：哪些指标可靠检测复发？来自PREVENT试验分析的启示

外周血DNA甲基化特征在克罗恩病中预测维多珠单抗和乌司奴单抗反应的潜力——EPIC-CD研究结果

非奈利酮降低1型糖尿病合并慢性肾病患者的尿蛋白排泄率：FINE-ONE III期试验显示平均UACR减少25%且安全性可接受

SOFA-2 重新校准：在超过 330 万 ICU 入院患者中进行全球开发和验证的更新器官功能障碍评分

HBsAg <100 IU/mL 识别出 HCC 风险低于监测阈值的慢性 HBV 患者

Castwise – AI播客内容转化工具

AudioGenie

FlowSpeech

Mistral Voxtral

Voxtral

ThinkSound

DubbingX

LLIA

LilyFM

OpenAudio S1

Unmute

BookFab AudioBook Creator

Spark-TTS

CosyVoice

GPT-SoVITS

LOVO AI

Suno Music Generator

Suno AI Music Generator AI