关键词 "语音模型" 的搜索结果, 共 3 条, 只显示前 480 条
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列! 该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口。 Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。
LLaSO:大型语言和语音模型中可重复研究的基础框架完全开放的语料库+基准+参考模型,用于组合语音语言理解。LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。???? LLaSO 是什么?LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈,在一个框架中统一数据、评估和建模。LLaSO-Align (12.0M):基于 ASR 的对
只显示前20页数据,更多请搜索