AI语音识别 - 梅斯AI导航站

Voiser

Voiser is an AI program that converts text to speech and speech to text with human-like voices.

whizz.com

AI virtual maths tutor for children aged 5 to 13

Voicenotes.com

Dump your thoughts. Perfect memory.

Free Transcription Tool Deepgram

Free AI transcription tool for converting audio to text.

Deepgram Voice AI

Real-time speech-to-text and text-to-speech APIs powered by Deepgram's voice AI models

Voicemaker

Voicemaker® converts text to human-like voices, offering various voice profiles and customization options.

deepvo.ai

多语言效率工具，支持高精度录音转文本、智能会议总结和自动思维导图生成，覆盖110+语言。办公场景中应用广泛，适合会议和文档处理。

VoiceCanvas

VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务，支持超过 50 种语言，集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能，用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户，显著提升语音内容制作效率。 VoiceCanvas

OmniAudio

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监

Voxtral

Voxtral 是 Mistral AI 推出的先进音频模型，基于卓越的语音转录和深度理解能力，推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本，分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能，能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API，同时成本更低，广泛应用在各种场景，助力语音

FunAudio-ASR-阿里巴巴推出FunAudio-ASR语音识别大模型

阿里巴巴推出FunAudio-ASR语音识别大模型，专为解决企业落地难题。模型通过创新的Context增强模块，有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下，其识别准确率显著提升，幻觉率从78.5%降至10.7%。目前，FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用，验证了其在真实企业环境中的稳定性和高精度识别能力，特别是在垂

搜索结果