关键词 "TTS Maker" 的搜索结果, 共 15 条, 只显示前 480 条
Zonos MCP server modified for Linux and GPU optimizations.
A Model Context Protocol (MCP) server that provides ASR(Automatic Speech Recognition) capabilities using the whisper engine. This server exposes TTS functionality through MCP tools, making it easy to
VOICEVOX MCP Server
Kokoro Text to Speech (TTS) MCP Server
Открытый инструмент для автоматизированного создания коротких видеороликов с поддержкой MCP и переводом README на русский язык.
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
<p>Overview Spark-TTS 是由出门问问(Mobvoi)联合多所顶尖学术机构(如香港科技大学、上海交通大学)最新推出的新一代语音合成模型,其核心创新在于BiCodec编码技术和与文本大模型的结构统一性,利用大型语言模型 (LLM) 的强大功能实现高度准确且自然的语音合成。</p> <p>Spark-TTS is an advanced text
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
极简部署AI视频翻译配音工具 KrillinAI-一款AI视频翻译配音工具 提供了从视频下载,音频提取,音频转录,文本切割,翻译,对齐,到最终合成适配抖音,哔哩哔哩,小红书,视频号,快手等主流平台格式的一站式解决方案。 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
BookFab AudioBook Creator is an AI text-to-speech tool designed for producing high-quality audiobooks, podcasts and read-aloud content. It supports importing TXT or EPUB files and converting them to a
OpusClip Thumbnail 是 OpusClip 团队推出的免费的 AI 缩略图生成工具,专为 YouTube 创作者设计,用于快速生成视频缩略图。用户只需粘贴视频链接,AI 会自动分析内容并生成多个高表现力的缩略图选项,无需手动输入提示词或描述。基于顶级创作者的成功模式训练,吸引观众注意力提高点击率。 OpusClip Thumbnail的主要功能 一键生成:用户只需粘贴 Yo
DecipherIt是AI驱动的研究助手工具,基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本,提供全面的总结、互动问答、音频概述、可视化思维导图及自动化的FAQ生成等功能。基于Bright Data的MCP服务器,DecipherIt突破地理限制和反爬虫检测,获取全球范围内的信息。DecipherIt是多智能体AI框架CrewAI支持高效地分析和整合来自
OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈(RLHF)技术,生成的声音高度自然、流畅,几乎与人类配音无异。模型支持超过50种情感和语调标记,用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆,仅需10到30秒的音频样本
只显示前20页数据,更多请搜索
Showing 289 to 303 of 303 results