Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音交互的普及。
Voxtral的主要功能
- 长文本上下文处理:支持长达 30 分钟 的音频转录和 40 分钟 的音频理解,能处理复杂的长篇内容。
- 内置问答与总结:直接对音频内容提问,或生成结构化的总结,无需额外的 ASR 和语言模型。
- 多语言支持:自动语言检测,支持多种常用语言(如英语、西班牙语、法语、葡萄牙语、印地语、德语等),满足全球用户需求。
- 语音触发功能调用:根据用户语音意图直接触发后端功能、工作流或 API 调用,无需中间解析步骤。
- 文本理解能力:保留 Mistral Small 3.1 的文本理解能力,支持文本输入和处理。
- 优化的转录性能:提供高度优化的转录端点,成本效益高,适合大规模应用。
Voxtral的项目地址
- 项目官网:https://mistral.ai/news/voxtral