Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。

当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。

01. Highlights

1. 开源了两个模型:1)在多样化长音频数据集上预训练的基础模型,能实现零样本TTS合成;2)在单一说话人上进行监督微调(SFT)的模型,以此提升TTS性能。

2. 提供了详细的训练方法:提供了从base模型在单一speaker语音数据上微调得到SFT模型的训练方法,也开源了全部的训练代码,以满足开发者对于更深层研究的需求。

3. 提供了优化推理效率的框架:我们开发了一个加速的TTS推理框架,尤其优化LLM组件,能够更快速、更高效生成语音。

4. 英语上具有良好性能的同时推理效率极高:每1s语音生成仅需0.33秒推理时间,为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。

02.

模型设计

Muyan-TTS在建模架构上,延续了GPT-SoVITS的两阶段结构,并作出如下调整:

  • 语言模型部分以Llama-3.2-3B为backbone继续预训练,具备更强的语义建模能力。

  • 解码器部分使用 SoVITS 架构,在大规模高质量长音频数据上进行了微调,提高合成音频表现力与保真度的同时,也保持了稳定性并削弱了因LLM所带来的幻觉。

这样的模型设计在保证合成质量的同时,兼顾了个性化能力和运行效率,适配多种音频内容形式,如主持人旁白、访谈复刻、语音摘要等。

图片

03.

面向长音频的数据处理

 

为了优化Muyan-TTS在长音频生成场景下的表现,我们构建了超过10万小时的高质量语音及对应转录的训练语料。数据处理采用三阶段流程:

  • 收集与转录:结合开源数据集与自建数据源采集,基于最大化覆盖说话人数和语言的差异性的目标,每个音频被分割成1分钟的片段均匀采样,收集了超过15万小时的原始数据并使用Whisper和Fun ASR进行转录;

  • 音频清洗:引入MSS、DeReverb、DeEcho、Denoise、NeMo等模块,仅保留人声轨道、单speaker、过滤背景噪声与混响、进一步提升语音的清晰度和可理解性;

  • 质量过滤:使用 NISQA 评估每段音频的MOS分数,仅保留MOS>3.8内容。

最终数据集通过 NVIDIA A10 机器完成预处理,总清洗时长约为 60,000 GPU小时。

图片

04.

训练策略与资源成本

 

我们的训练分为三个阶段:

阶段一:基于清洗的语音-文本平行语料继续预训练大语言模型,获取zero-shot TTS的能力。在80张A100组成的计算集群上训练了约10天。

阶段二:在单一speaker数据上基于base模型SFT,提升特定声音的合成效果。训练成本相比预训练可以忽略不计。

阶段三:SoVITS解码器微调,对高质量长音频片段(MOS>4.5)进行专向训练,强化语音自然度与清晰度。

整个训练过程消耗的资源与成本如下:

图片

05.

实验评测

推理优化与部署适配

针对LLM在推理端的高延迟痛点,Muyan-TTS构建了一套系统性优化方案:一方面,深度集成vLLM推理引擎,充分释放大语言模型的并行计算潜力,显著提升推理效率;另一方面,创新引入动态句长切分与批量处理合成技术,有效减少资源等待时间,增强处理灵活性。

经实测验证,在非流式推理模式下,Muyan-TTS的语音合成效率表现卓越——平均每生成1秒语音仅需0.33秒推理时间,相比同类开源TTS模型具有显著性能优势,为实时语音交互场景提供了更高效的解决方案。

图片

性能对比

在LibriSpeech和SEED两大标准评测集上,我们评估了Muyan-TTS与主流开源TTS模型的性能表现,主要指标涵盖词错率(WER)、语音质量评分(MOS)与说话人相似度(SIM):

图片

同时,在微调(SFT)后,Muyan-TTS在语音质量(MOS)与个性化能力(SIM)方面进一步提升,适配小规模个人语音数据集的声音定制。

生成示例

Base Model
SFT Model

我们相信就像《her》中的Samantha,语音会成为人和AI交互的核心方式,并使每个人都能拥有随时可交流的AI朋友。

Muyan-TTS只是我们在语音技术上一个非常微小的尝试,无论是模型结构、数据制备和训练方法都还有很大的改良空间,我们也期待对语音技术有爱好、愿意深度研究TTS和实时语音交互等领域的朋友能够一起加入这个行列。

相关推荐

Spark-TTS

Spark-TTS

<p>Overview Spark-TTS 是由出门问问(Mobvoi)联合多所顶尖学术机构(如香港科技大学、上海交通大学)最新推出的新一代语音合成模型,其核心创新在于BiCodec编码技术和与文本大模型的结构统一性,利用大型语言模型 (LLM) 的强大功能实现高度准确且自然的语音合成。</p> <p>Spark-TTS is an advanced text-to-speech system that uses the power of large language models (LLM) for highly accurate and natural-sounding voice synthesis. It is designed to be efficient, flexible, and powerful for both research and production use. Key Features Simplicity and Efficiency: Built entirely on Qwen2.5, Spark-TTS eliminates the need for additional generation models like flow matching. Instead of relying on separate models to generate acoustic features, it directly reconstructs audio from the code predicted by the LLM. This approach streamlines the process, improving efficiency and reducing complexity. High-Quality Voice Cloning: Supports zero-shot voice cloning, which means it can replicate a speaker's voice even without specific training data for that voice.</p> <p>This is ideal for cross-lingual and code-switching scenarios, allowing for seamless transitions between languages and voices without requiring separate training for each one. Bilingual Support: Supports both Chinese and English, and is capable of zero-shot voice cloning for cross-lingual and code-switching scenarios, enabling the model to synthesize speech in multiple languages with high naturalness and accuracy. Controllable Speech Generation: Supports creating virtual speakers by adjusting parameters such as gender, pitch, and speaking rate. Inference Overview of Voice Cloning Inference Overview of Controlled Generation</p>

CosyVoice

CosyVoice

FunAudioLLM/CosyVoice(https://github.com/FunAudioLLM/CosyVoice) 项目是一个开源的多语言语音生成模型,它支持推理、训练和部署全流程。 该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型,以及 CosyVoice-ttsfrd 资源。用户可以通过克隆 GitHub 仓库并安装 Conda 环境来获取和使用这些模型。 项目提供了详细的安装指南和基础使用示例,包括零样本、跨语言和指令式推理。此外,还有一个 Web 演示页面,用户可以通过它快速体验 CosyVoice 的功能。对于高级用户,项目还提供了训练和部署的脚本和指导。CosyVoice 支持的语言包括中文、英文、日文、粤语和韩语等。 CosyVoice2.0 是阿里开源的多语言大规模语音生成模型,支持的语言包括中文、英文、日文、粤语和韩语等。本版本部署在autodl云。

GPT-SoVITS

GPT-SoVITS

1分钟语音数据也可以用来训练一个好的TTS模型!(少量声音克隆).零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。 Github上超过4万个星星

LOVO AI

LOVO AI

AI语音生成器是什么 AI语音生成器是一种利用人工智能技术将文本转换为语音的工具Genny是LOVO AI开发的一款先进的AI语音生成器,它具备500+种声音和100种语言的支持,能够为视频、营销、培训、社交媒体等内容创作提供高质量的语音Genny的特点在于其超逼真的声音,几乎无法与真实人类的声音区分开来 AI语音生成器的主要功能和特点 Genny的主要功能和特点包括: 超逼真的AI声音,支持100多种语言 集成的视频编辑功能,方便用户创建和编辑视频 文本到语音同步,确保音视频完美匹配 自动字幕生成,支持20多种语言 AI脚本编写功能,帮助用户快速生成专业脚本 声音克隆技术,只需一分钟音频即可创建自定义声音 AI艺术生成器,快速生成高清免版权图片 团队协作功能,支持云端存储和项目共享 适用于开发者的API,允许在应用程序或服务中使用先进的声音 如何使用AI语音生成器 使用Genny非常简单,用户只需通过网页浏览器登录即可开始使用以下是每个功能的使用方法和应用场景: 文本到语音:用户输入文本,选择合适的声音和语言,Genny将自动生成语音,适用于视频配音、有声读物等 视频编辑:用户可以上传视频,使用Genny的视频编辑工具进行剪辑和增强,然后添加生成的语音 自动字幕:在视频编辑过程中,Genny可以自动生成字幕,支持多种语言,帮助全球观众理解内容 AI脚本编写:当用户遇到创作瓶颈时,Genny的AI脚本编写功能可以提供帮助,快速生成专业脚本 声音克隆:用户可以上传自己的音频样本,Genny将根据样本创建独特的声音,适用于品牌宣传和个性化内容 AI语音生成器的适用人群 Genny适用于广泛的用户群体,包括内容创作者、营销人员、教育工作者、企业培训师以及任何需要为视频或音频添加语音的人 AI语音生成器的价格 根据LOVO AI的官方网站,Genny提供免费的基础服务,用户可以免费开始使用具体的付费计划可能包括更多的功能和高级选项,但具体的价格信息需要直接在官方网站上查询 AI语音生成器产品总结 Genny作为一款AI语音生成器,以其高度逼真的声音和全面的功能,为内容创作者和其他用户提供了强大的工具它不仅能够节省时间和成本,还能提升视频和音频项目的专业度Genny的易用性和灵活性使其成为市场上值得关注的AI语音生成器之一

Suno Music Generator

Suno Music Generator

Innovative AI music generator.

Suno AI Music Generator AI

Suno AI Music Generator AI

Create SunoAI music for free

Output

Output

The ultimate creative software for music makers.

SongGenerator.io: AI Music Generator Free Online

SongGenerator.io: AI Music Generator Free Online

Transform text into royalty-free AI music quickly

Musick AI

Musick AI

AI music generator for creating high-quality musical compositions.

Make Best Music

Make Best Music

AI-powered music production suite

Kits AI

Kits AI

Transform your voice with AI artist voices. Create and train your own AI voice model.

Suno Music Downloader

Suno Music Downloader

Fast, reliable, and free Suno AI music downloads

Brain.fm

Brain.fm

Functional music to enhance focus and productivity.