Create engaging artificial intelligence (AI) voiceovers for any type of project: videos, ads, e-learning, audiobooks, dubbing, among others. Speechify AI Voice Generator, with its 200+ voices across more than 60 languages, features voice cloning, emotional tuning, and speed control, adapting perfectly to meet every requirement. Enjoy over 1000+ natural, lifelike AI voices across 60+ languages and every accent you need. Use features like emotional control, voice cloning, our pronunciation library, and pauses. You can try it for free.

相关推荐

spatial speech translation

spatial speech translation

空间语音翻译:利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译:利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示: 💡 功能 我们首先实现多说话人和干扰条件下的语音翻译。 我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。 首先,语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源计划 法语-英语翻译的推理代码和检查点 法英翻译训练代码 开源其他语言(德语、西班牙语)数据集、预处理和检查点

meeting minutes

meeting minutes

专注于您的对话,同时 Meetily 的 AI 会自动捕获、转录和总结您的会议记录。100% 开源、自托管和隐私优先 - Granola 和 Otter AI 的完美替代品。适用于 Google Meet、Zoom 和 Teams 只需单击一下即可捕获现场会议音频 人们说话时的实时转录 人工智能生成的摘要和行动项目 100%开源,完全透明 自托管以实现完全数据控制 100% 私密 - 所有处理均在本地进行

Kimi-Audio

Kimi-Audio

Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。 大规模预训练:对超过 1300 万小时的不同音频数据(语音、音乐、声音)和文本数据进行预训练,实现强大的音频推理和语言理解。 新颖的架构:采用混合音频输入(连续声学+离散语义标记)和具有并行头的 LLM 核心,用于文本和音频标记生成。 高效推理:具有基于流匹配的分块流式去标记器,可生成低延迟音频。 开源:我们发布代码、模型检查点和综合评估工具包,以促进社区研究和开发。 架构概述 Kimi-Audio 由三个主要组件组成: 音频标记器:将输入音频转换为: 使用矢量量化的离散语义标记(12.5Hz)。 来自 Whisper 编码器的连续声学特征(下采样至 12.5Hz)。 音频 LLM:基于转换器的模型(由预训练的文本 LLM(如 Qwen 2.5 7B)初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。 音频解析器:使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换回高保真波形,支持分块流传输,并采用前瞻机制实现低延迟。

AiVOOV - Text to Speech Solution

AiVOOV - Text to Speech Solution

AiVOOV: AI voices convert text to audio with 900+ options in 125+ languages.

DupDub

DupDub

Convert text into realistic human-like voices with DupDub Voice Generator.

Tangia

Tangia

Supercharge chat engagement on your stream.

TopMediai®

TopMediai®

AI-powered online media tools for video, audio, and photos.

Speechify

Speechify

Speechify is a popular text-to-speech app for Chrome, iOS, and Android.

ElevenLabs

ElevenLabs

Generate high-quality AI voices in minutes.