分类导航
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
相关推荐

nari-labs DIA-1
A TTS model capable of generating ultra-realistic dialogue in one pass.能够一次性生成超逼真对话的 TTS 模型。 Dia可以直接从文字记录生成高度逼真的对话。您可以根据音频调整输出,从而控制情绪和语调。该模型还可以生成非语言交流,例如笑声、咳嗽声、清嗓子等。 为了加速研究,我们提供预训练模型检查点和推理代码的访问权限。模型权重托管在Hugging Face上。该模型目前仅支持英语生成。

Thundr
Revolutionizing online interactions with AI moderation.