Kimi-Audio

Kimi-Audio

开源音频音频理解语音识别音频问答音频字幕语音情感识别端到端语音对话

Kimi-Audio，这是一个开源音频基础模型，在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。通用功能：处理语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话等多种任务。最先进的性能：在众多音频基准测试中取得 SOTA 结果（参见评估和技术报告）。大规模预训练：对超过 1300 万小时的不同音频数据（语音、音乐、声音）和文本数据进行预训练，实现强大的音频推理和语言理解。新颖的架构：采用混合音频输入（连续声学+离散语义标记）和具有并行头的 LLM 核心，用于文本和音频标记生成。高效推理：具有基于流匹配的分块流式去标记器，可生成低延迟音频。开源：我们发布代码、模型检查点和综合评估工具包，以促进社区研究和开发。架构概述 Kimi-Audio 由三个主要组件组成：音频标记器：将输入音频转换为：使用矢量量化的离散语义标记（12.5Hz）。来自 Whisper 编码器的连续声学特征（下采样至 12.5Hz）。音频 LLM：基于转换器的模型（由预训练的文本 LLM（如 Qwen 2.5 7B）初始化），具有处理多模态输入的共享层，然后是并行头，用于自回归生成文本标记和离散音频语义标记。音频解析器：使用流匹配模型和声码器（BigVGAN）将预测的离散语义音频标记转换回高保真波形，支持分块流传输，并采用前瞻机制实现低延迟。

相关推荐

Huxe

Huxe

<p>Huxe AI 是创新的个人音频伴侣应用，由谷歌旗下热门 AI 播客应用 NotebookLM 的核心团队成员创立。通过生成式 AI 技术，将用户关心的内容转化为个性化的音频体验。用户可以连接日历、邮件和兴趣领域，获取每日简报和定制化音频内容。能根据用户输入的主题生成深入研究的音频内容，提供智能互动，实时调整内容以满足用户需求。配备了生成式用户界面，为用户提供与音频相辅相成的视觉信息。</p> <h2 style="font-size: 20px;">Huxe AI的主要功能</h2> <ul> <li> <div class="paragraph">个性化音频简报：能连接用户的邮箱、日历等个人数据流，生成定制化的每日音频简报。</div> </li> <li> <div class="paragraph">实时问答：用户在收听音频简报的过程中可以随时打断或追问，进行实时交互。</div> </li> <li> <div class="paragraph">减少屏幕时间：通过音频内容流减少用户的屏幕时间，增强用户与现实世界的互动。</div> </li> <li> <div class="paragraph">与现有应用集成：保留了与现有应用程序集成的核心理念，让 AI 能跨工具进行交流。</div> </li> </ul> <h2 style="font-size: 20px;">HuxeAI的官网地址</h2> <ul> <li>官网地址：<a href="https://www.huxe.com/" target="_blank" rel="noopener">huxe.com</a></li> </ul>

spatial speech translation

spatial speech translation

空间语音翻译：利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译：利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示： 💡 功能我们首先实现多说话人和干扰条件下的语音翻译。我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。首先，语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源计划法语-英语翻译的推理代码和检查点法英翻译训练代码开源其他语言（德语、西班牙语）数据集、预处理和检查点

meeting minutes

meeting minutes

专注于您的对话，同时 Meetily 的 AI 会自动捕获、转录和总结您的会议记录。100% 开源、自托管和隐私优先 - Granola 和 Otter AI 的完美替代品。适用于 Google Meet、Zoom 和 Teams 只需单击一下即可捕获现场会议音频人们说话时的实时转录人工智能生成的摘要和行动项目 100%开源，完全透明自托管以实现完全数据控制 100% 私密 - 所有处理均在本地进行

AiVOOV - Text to Speech Solution

AiVOOV - Text to Speech Solution

AiVOOV: AI voices convert text to audio with 900+ options in 125+ languages.

DupDub

DupDub

Convert text into realistic human-like voices with DupDub Voice Generator.

Tangia

Tangia

Supercharge chat engagement on your stream.

TopMediai®

TopMediai®

AI-powered online media tools for video, audio, and photos.

Speechify

Speechify

Speechify is a popular text-to-speech app for Chrome, iOS, and Android.

Speechify Studio - AI Voice Generator

Speechify Studio - AI Voice Generator

Create engaging artificial intelligence (AI) voiceovers for any type of project: videos, ads, e-learning, audiobooks, dubbing, among others. Speechify AI Voice Generator, with its 200+ voices across more than 60 languages, features voice cloning, emotional tuning, and speed control, adapting perfectly to meet every requirement. Enjoy over 1000+ natural, lifelike AI voices across 60+ languages and every accent you need. Use features like emotional control, voice cloning, our pronunciation library, and pauses. You can try it for free.

ElevenLabs

ElevenLabs

Generate high-quality AI voices in minutes.