分类导航
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断
双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容
用来构建客服、教育或陪伴等等场景的AI语音助手比较实用
为低延迟交互而构建的复杂客户端-服务器系统:
🎙️捕获:您的声音被您的浏览器捕获。
➡️流:音频块通过 WebSockets 传输到 Python 后端。
✍️转录: RealtimeSTT快速将您的语音转换为文本。
🤔思考:文本被发送到 LLM(如 Ollama 或 OpenAI)进行处理。
🗣️合成:使用将 AI 的文本响应转换回语音RealtimeTTS。
⬅️返回:生成的音频将流回您的浏览器进行播放。
🔄中断:随时加入!系统会妥善处理中断。
主要特点✨
流畅的对话:说和听,就像真正的聊天一样。
实时反馈:查看部分转录和 AI 响应。
低延迟焦点:使用音频块流优化架构。
智能轮流发言:动态静音检测(turndetect.py)可适应对话节奏。
灵活的 AI 大脑:可插入的 LLM 后端(Ollama 默认,通过 OpenAI 支持llm_module.py)。
可定制的声音:从不同的文本到语音引擎中进行选择(Kokoro、Coqui、Orpheus via audio_module.py)。
Web 界面:使用 Vanilla JS 和 Web Audio API 的干净、简单的 UI。
Dockerized 部署:建议使用 Docker Compose 进行设置,以便于依赖项管理。
技术栈🛠️
后端: Python 3.x,FastAPI
前端: HTML、CSS、JavaScript(Vanilla JS、Web Audio API、AudioWorklets)
通信: WebSockets
容器化: Docker、Docker Compose
核心 AI/ML 库:
RealtimeSTT(语音转文本)
RealtimeTTS(文本转语音)
transformers(转弯检测、标记化)
torch/ torchaudio(机器学习框架)
ollama/ openai(法学硕士客户)
音频处理: numpy,scipy
相关推荐

easycallcenter365
它是开源了从FreeSWITCH模块,语音合成,语音识别,到java版的电话工具条等,完整的源码都提供了。 项目采用Apache2.0用户协议。 主要功能如下: 1. 支持对接大模型 2. 支持实时流式语音合成 3. 支持acd话务排队 4. 支持AI通话无缝转接人工坐席 5. 支持电话工具条 6. 支持IMS视频通话/语音通话转视频 7. 支持可视化web管理系统

FliFlik Voice Changer
Voice changer for games and streaming.

Voice AI
Real-time AI voice changer

Voicemod
Voicemod: free voice changer for Windows and macOS, perfect for gaming and content creation. Voicemod:适用于 Windows 和 macOS 的免费语音转换器,非常适合游戏和内容创作。