关键词 "语音交互" 的搜索结果, 共 8 条, 只显示前 480 条
星火大模型是科大讯飞推出的AI大模型,支持对话、写作、编程等功能,还能提供语音交互方式。它具备跨语言、跨领域的知识理解和推理能力。
"暴躁教授读论文"是一个学术论文阅读伴侣应用程序,旨在通过富有个性的AI助手提高论文阅读效率。它集成了PDF处理、AI翻译、RAG检索、AI问答和语音交互等多种功能,为学术研究者提供一站式的论文阅读解决方案。 主要特性 论文自动处理:导入PDF后自动提取、翻译和结构化论文内容 双语显示:支持中英文对照阅读论文 AI智能问答:与论文内容结合,提供专业的解释和分析 个性化AI教授:AI以"暴
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
Unmute 是 Kyutai 推出的低延迟语音交互系统,专注于低延迟语音转文字(Speech-to-Text)和文字转语音(Text-to-Speech)。Unmute 基于先进的 AI 模型,为用户提供实时、高效的语音交互体验。用户基于语音与 AI 进行交流,支持将文字内容快速转换为自然流畅的语音输出。Unmute 的低延迟处理能力,能实现无缝的语音交互。 Unmute的主要功能
Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音
来福是北京耳朵时间科技推出的AI私人电台应用,应用主打AI语音驱动的“陪伴型内容”,结合语音合成与场景感知实现个性化播报,为用户提供沉浸式的音频体验。用户用语音交互点播节目、提问或聊天,享受7×24小时的声音陪伴。应用融合播客、智能语音助手与定制内容推荐的多重属性,用AI生成内容替代传统主播,重新定义私人电台的使用体验。 来福官网: https://laifu.fm/ 也可以下载APP使用
Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频,将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生成、上下文理解及实时问答。Glass 的设计真正隐形,不会出现在屏幕录制、截图或 Dock 中,完全不干扰用户操作。Glass支持 macOS 和 Windows 系统,用户能免费使用,且无需注册。Glass开源特性成为 AI
只显示前20页数据,更多请搜索