专注于您的对话,同时 Meetily 的 AI 会自动捕获、转录和总结您的会议记录。100% 开源、自托管和隐私优先 - Granola 和 Otter AI 的完美替代品。适用于 Google Meet、Zoom 和 Teams 只需单击一下即可捕获现场会议音频 人们说话时的实时转录 人工智能生成的摘要和行动项目 100%开源,完全透明 自托管以实现完全数据控制 100% 私密 - 所有处理均在本地进行

相关推荐

spatial speech translation

spatial speech translation

空间语音翻译:利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译:利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示: 💡 功能 我们首先实现多说话人和干扰条件下的语音翻译。 我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。 首先,语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源计划 法语-英语翻译的推理代码和检查点 法英翻译训练代码 开源其他语言(德语、西班牙语)数据集、预处理和检查点

Kimi-Audio

Kimi-Audio

Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。 大规模预训练:对超过 1300 万小时的不同音频数据(语音、音乐、声音)和文本数据进行预训练,实现强大的音频推理和语言理解。 新颖的架构:采用混合音频输入(连续声学+离散语义标记)和具有并行头的 LLM 核心,用于文本和音频标记生成。 高效推理:具有基于流匹配的分块流式去标记器,可生成低延迟音频。 开源:我们发布代码、模型检查点和综合评估工具包,以促进社区研究和开发。 架构概述 Kimi-Audio 由三个主要组件组成: 音频标记器:将输入音频转换为: 使用矢量量化的离散语义标记(12.5Hz)。 来自 Whisper 编码器的连续声学特征(下采样至 12.5Hz)。 音频 LLM:基于转换器的模型(由预训练的文本 LLM(如 Qwen 2.5 7B)初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。 音频解析器:使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换回高保真波形,支持分块流传输,并采用前瞻机制实现低延迟。

AiVOOV - Text to Speech Solution

AiVOOV - Text to Speech Solution

AiVOOV: AI voices convert text to audio with 900+ options in 125+ languages.

DupDub

DupDub

Convert text into realistic human-like voices with DupDub Voice Generator.

Tangia

Tangia

Supercharge chat engagement on your stream.

TopMediai®

TopMediai®

AI-powered online media tools for video, audio, and photos.

Speechify

Speechify

Speechify is a popular text-to-speech app for Chrome, iOS, and Android.

Speechify Studio - AI Voice Generator

Speechify Studio - AI Voice Generator

Create engaging artificial intelligence (AI) voiceovers for any type of project: videos, ads, e-learning, audiobooks, dubbing, among others. Speechify AI Voice Generator, with its 200+ voices across more than 60 languages, features voice cloning, emotional tuning, and speed control, adapting perfectly to meet every requirement. Enjoy over 1000+ natural, lifelike AI voices across 60+ languages and every accent you need. Use features like emotional control, voice cloning, our pronunciation library, and pauses. You can try it for free.

ElevenLabs

ElevenLabs

Generate high-quality AI voices in minutes.