ThinkSound

阿里通义音频生成

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成，包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集，包含带思维链标注的音频数据。在VGGSound数据集上，ThinkSound超越6种主流方法（Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper和MMAudio），展现出卓越的性能。

ThinkSound的项目地址

项目官网：https://thinksound-project.github.io/
GitHub仓库：https://github.com/liuhuadai/ThinkSound
HuggingFace模型库：https://huggingface.co/liuhuadai/ThinkSound
arXiv技术论文：https://arxiv.org/pdf/2506.21448

Castwise – AI播客内容转化工具

<p style="text-align: left; line-height: 2;">Castwise 是为播客创作者设计的AI内容转化工具。工具能将播客音频快速转化为多种格式的内容，如节目笔记、公众号文章、小红书笔记、社交媒体帖子、字幕、思维导图等，极大地提高内容分发的效率。用户只需上传音频文件或提供链接，系统能高效处理、生成多种素材，支持多语言。Castwise 的目标是将播客转化为强大的营销引擎，帮助创作者实现“一次录制，多平台发布”，提升内容的传播范围和影响力。</p><h2 style="text-align: left;">Castwise的主要功能</h2><ul><li style="text-align: left;">多格式内容生成：将播客音频转化为节目笔记、文章、社交媒体帖子、字幕、思维导图等多种格式内容。</li><li style="text-align: left;">音频处理与上传：支持上传音频文件或链接，系统高效处理生成内容。</li><li style="text-align: left;">编辑与优化：用户能对生成内容进行微调，修正转录、调整总结以符合个人风格。</li><li style="text-align: left;">内容分发：支持将内容轻松分享到微信公众号、小红书、Twitter、YouTube 等平台。</li><li style="text-align: left;">多语言支持：目前支持英语、简体中文、繁体中文等语言。</li></ul><h2 style="text-align: left;">Castwise的官网地址</h2><ul><li style="text-align: left;"><strong>官网地址</strong>：https://castwise.ai/<br></li></ul>

AudioGenie

<p>AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具，能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架，通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件，通过自适应混合专家（MoE）协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证，通过反馈循环进行自我纠错，确保生成的音频高度可靠。</p> <p>AudioGenie建立了全球首个针对多模态到多音频生成（MM2MA）任务的基准测试集MA-Bench，包含198个带有多类型音频注释的视频。在测试中，AudioGenie在9项指标、8项任务中均达到或接近最先进水平，尤其在音质、准确性、内容对齐和美学体验方面表现出色。</p>

FlowSpeech

<p>FlowSpeech 是创新的 AI 文本转语音（TTS）工具，专注于将书面语转换为自然流畅的口语。通过上下文感知和多模态技术，解决了传统 TTS 在语调变化和情感表达上的不足，让 AI 生成的语音听起来更生动、自然。FlowSpeech 具备智能内容筛选功能，能自动识别并剪裁不适合朗读的内容，如广告信息和无意义字符串，显著提升语音输出质量。</p> <h2 style="font-size: 20px;">如何使用FlowSpeech</h2> <ul> <li>网页端使用 <ul> <li> <div class="paragraph">访问平台：访问 ListenHub.ai 的官网，登录选择使用FlowSpeech 服务</div> </li> </ul> </li> </ul>

Mistral Voxtral

<p>Mistral AI，最新发布了首个开源语音模型：Voxtral语音理解模型系列！</p> <p>该模型包含24B和3B两个参数规模的版本，均基于Apache 2.0许可证开源，同时提供API服务接口。</p> <p>Voxtral模型支持32k token的上下文窗口，能够处理长达30分钟的音频转录任务或40分钟的语义理解任务，在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。</p> <p>Voxtral模型继承了Mistral Small 3.1基座模型的文本理解能力，除了基础的语音转文字功能外，还可以直接对音频内容进行问答交互，生成结构化摘要，并通过语音指令触发API调用。</p> <p>在成本敏感型应用场景中，Voxtral Mini转录版的性能优于OpenAI Whisper，而使用成本仅为后者的50%以下。在高阶应用场景中，Voxtral Small在保持与ElevenLabs Scribe相当性能水平的同时，使用成本同样控制在后者50%以下。</p> <p>从测试结果上看，该模型在转录准确率上超越了同为开源的Whisper，但其与商业模型GPT-4o-mini及Gemini 2.5 Flash还是有着一定的差距，Scribe依旧是语音模型中的“老大”。</p>

Voxtral

<p>Voxtral 是 Mistral AI 推出的先进音频模型，基于卓越的语音转录和深度理解能力，推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本，分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能，能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API，同时成本更低，广泛应用在各种场景，助力语音交互的普及。</p> <h2 style="font-size: 20px;">Voxtral的主要功能</h2> <ul> <li>长文本上下文处理：支持长达 30 分钟的音频转录和 40 分钟的音频理解，能处理复杂的长篇内容。</li> <li>内置问答与总结：直接对音频内容提问，或生成结构化的总结，无需额外的 ASR 和语言模型。</li> <li>多语言支持：自动语言检测，支持多种常用语言（如英语、西班牙语、法语、葡萄牙语、印地语、德语等），满足全球用户需求。</li> <li>语音触发功能调用：根据用户语音意图直接触发后端功能、工作流或 API 调用，无需中间解析步骤。</li> <li>文本理解能力：保留 Mistral Small 3.1 的文本理解能力，支持文本输入和处理。</li> <li>优化的转录性能：提供高度优化的转录端点，成本效益高，适合大规模应用。</li> </ul> <h2 style="font-size: 20px;">Voxtral的项目地址</h2> <ul> <li>项目官网：https://mistral.ai/news/voxtral</li> </ul>

DubbingX

<p>智声云配（DubbingX）是 AI 智能配音工具，提供语音合成（TTS）、音色迁移、歌声转换等多种功能。工具支持中文、英文、日文、粤语等多语言，拥有近2500种情绪语态，支持高度定制，满足游戏、影视、动漫、有声书等多场景需求。工具音色版权合规，支持商用，能显著降低配音成本。智声云配结合专业高校和全球配音演员资源，致力于为用户提供高质量、多样化的音频解决方案。</p> <p>智声云配官网：https://dubbingx.com/</p>

LLIA

<p>LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制，为用户提供流畅且自然的交互体验。</p> <h2 style="font-size: 20px;">LLIA的主要功能</h2> <ul> <li>实时音频驱动的肖像视频生成：根据输入的音频信号实时生成对应的肖像视频，实现语音与表情、动作的同步。</li> <li>低延迟交互：在高性能GPU上能够实现高帧率（如384×384分辨率下达到78 FPS）和低延迟（如140 ms）的视频生成，适合实时交互场景。</li> <li>多状态切换：支持基于类别标签控制虚拟形象的状态，如说话、倾听和空闲状态，让虚拟形象根据场景做出自然反应。</li> <li>面部表情控制：基于肖像动画技术修改参考图像的表情，从而实现对生成视频中面部表情的精细控制，增强虚拟形象的表现力。</li> </ul> <h2 style="font-size: 20px;">LLIA的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://meigen-ai.github.io/llia/?utm_source=medsci" target="_blank" rel="noopener">https://meigen-ai.github.io/llia/</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/MeiGen-AI/llia" target="_blank" rel="noopener nofollow">https://github.com/MeiGen-AI/llia</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2506.05806" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2506.05806</a></li> </ul>

LilyFM

<p>LilyFM是创新的AI应用，能将网页文章转化为播客。应用基于先进的AI技术，将用户待读的文章内容转化为生动的音频，提供深度分析和提炼关键要点，帮助用户更高效地获取知识。LilyFM逼真的AI语音支持多种语言，提供自然、富有表现力的朗读体验。用户基于Share Extension一键保存文章到播放队列，随时随地在通勤、健身或休息时收听。LilyFM让稍后阅读转变为稍后收听，让知识获取更加便捷和轻松。</p> <h2 style="font-size: 20px;">LilyFM的主要功能</h2> <ul> <li>文章转播客：将网页文章转化为播客，实现稍后阅读到稍后收听的转变。</li> <li>深度分析与提炼：AI分析文章内容，提炼关键要点和核心观点，帮助用户快速抓住重点。</li> <li>自然语音朗读：提供逼真的AI语音，支持多种语言，朗读自然、富有表现力。</li> <li>一键保存与播放：基于Share Extension，用户一键将文章保存到播放队列，方便管理。</li> <li>随时随地收听：支持在通勤、健身或休息时收听，让知识获取融入日常生活。</li> <li>个性化体验：根据用户兴趣标签，提供定制化的播客内容和洞见。</li> </ul> <h2 style="font-size: 20px;">LilyFM的官网地址</h2> <ul> <li>苹果AppStore应用商店：<a class="external" href="https://apps.apple.com/cn/app/lilyfm-ai-article-to-podcast/id6745472149" target="_blank" rel="noopener nofollow">https://apps.apple.com/cn/app/lilyfm</a></li> </ul>

OpenAudio S1

<p>OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈（RLHF）技术，生成的声音高度自然、流畅，几乎与人类配音无异。模型支持超过50种情感和语调标记，用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆，仅需10到30秒的音频样本可生成高保真的克隆声音。</p> <h2 style="font-size: 20px;">OpenAudio S1的主要功能</h2> <ul> <li> <div class="paragraph">高度自然的语音输出：基于超过 200 万小时的音频数据训练，生成的语音几乎与人类配音无异，适用于视频配音、播客和游戏角色语音等专业场景。</div> </li> <li> <div class="paragraph">丰富的情感和语气控制：支持超过 50 种情感标记（如愤怒、快乐、悲伤等）和语调标记（如急促、低声、尖叫等），用户可以通过简单的文本命令来控制语音的情感和语气。</div> </li> <li> <div class="paragraph">强大的多语言支持：支持多达 13 种语言，包括英语、中文、日语、法语、德语等，展现出强大的多语言能力。</div> </li> <li> <div class="paragraph">高效的语音克隆：支持零样本和少样本语音克隆，只需 10 到 30 秒的音频样本即可生成高保真的克隆声音。</div> </li> <li> <div class="paragraph">灵活的部署选项：提供两种版本，40 亿参数的完整版 S1 和 5 亿参数的 S1-mini，后者为开源模型，适合研究和教育用途。</div> </li> <li> <div class="paragraph">实时应用支持：超低延迟（低于 100 毫秒），适合实时应用，如在线游戏和直播内容。</div> </li> </ul> <p> </p>

Unmute

<p>Unmute 是 Kyutai 推出的低延迟语音交互系统，专注于低延迟语音转文字（Speech-to-Text）和文字转语音（Text-to-Speech）。Unmute 基于先进的 AI 模型，为用户提供实时、高效的语音交互体验。用户基于语音与 AI 进行交流，支持将文字内容快速转换为自然流畅的语音输出。Unmute 的低延迟处理能力，能实现无缝的语音交互。</p> <h2 style="font-size: 20px;">Unmute的主要功能</h2> <ul> <li> <div class="paragraph">快速集成：将 Unmute 添加到现有文本模型中，无需重新训练，实现语音交互功能。</div> </li> <li>随时打断：用户能随时打断 AI 的回答，增强交互灵活性。</li> <li>10秒生成声音：仅需10秒语音样本，生成个性化 AI 声音。</li> <li>多样化调整：支持调整音调、语速，模拟特定角色语气。</li> </ul> <h2 style="font-size: 20px;">Unmute的官网地址</h2> <ul> <li>官网地址：<a href="https://unmute.sh/" target="_blank" rel="noopener">https://unmute.sh/</a></li> </ul>

BookFab AudioBook Creator

<p>BookFab AudioBook Creator is an AI text-to-speech tool designed for producing high-quality audiobooks, podcasts and read-aloud content. It supports importing TXT or EPUB files and converting them to audio formats such as MP3, OPUS or M4B.</p> <p>BookFab AudioBook Creator 是一款 AI 文本转语音工具，旨在制作高质量的有声读物、播客和朗读内容。它支持导入 TXT 或 EPUB 文件并将其转换为 MP3、OPUS 或 M4B 等音频格式。</p>

Muyan-TTS

<p>Muyan-TTS，一款低成本、具备良好二次开发支持的模型并完全开源，以方便学术界和小型应用团队的音频技术爱好者。</p> <p>当前开源的Muyan-TTS版本由于训练数据规模有限，致使其仅对英语语种呈现出良好的支持效果。不过，得益于与之同步开源的详尽训练方法，从事相关行业的开发者能够依据自身实际业务场景，灵活地对Muyan-TTS进行功能升级与定制化改造。</p> <section> <section> <section> <section> <section> <section> <section> <section> <section> <p><strong>01. </strong><strong>Highlights</strong></p> </section> </section> </section> </section> </section> </section> </section> </section> </section> <section> <p><strong>1. 开源了两个模型：</strong>1）在多样化长音频数据集上预训练的基础模型，能实现零样本TTS合成；2）在单一说话人上进行监督微调（SFT）的模型，以此提升TTS性能。</p> <p><strong>2. 提供了详细的训练方法：</strong>提供了从base模型在单一speaker语音数据上微调得到SFT模型的训练方法，也开源了全部的训练代码，以满足开发者对于更深层研究的需求。</p> <p><strong>3. 提供了优化推理效率的框架：</strong>我们开发了一个加速的TTS推理框架，尤其优化LLM组件，能够更快速、更高效生成语音。</p> <p><strong>4. 英语上具有良好性能的同时推理效率极高：</strong>每1s语音生成仅需0.33秒推理时间，为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。</p> </section> <section> <section> <section> <section> <section> <section> <section> <section> <section> <p><strong>02.</strong></p> </section> </section> </section> </section> </section> </section> </section> </section> <section> <section> <section> <section> <section> <p><strong>模型设计</strong></p> </section> </section> </section> </section> </section> </section> <section> <p>Muyan-TTS在建模架构上，延续了GPT-SoVITS的两阶段结构，并作出如下调整：</p> <ul class="list-paddingleft-1"> <li> <p><strong>语言模型部分</strong>以Llama-3.2-3B为backbone继续预训练，具备更强的语义建模能力。</p> </li> </ul> <ul class="list-paddingleft-1"> <li> <p><strong>解码器部分</strong>使用 SoVITS 架构，在大规模高质量长音频数据上进行了微调，提高合成音频表现力与保真度的同时，也保持了稳定性并削弱了因LLM所带来的幻觉。</p> </li> </ul> <p><strong>这样的模型设计在保证合成质量的同时，兼顾了个性化能力和运行效率，适配多种音频内容形式，如主持人旁白、访谈复刻、语音摘要等。</strong></p> </section> <section> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/news_bt/OmLLrKKESoqvMYCKQ9SNQ9_2lEImj_XMesJGwsJjCuwtkAA/641" alt="图片" data-src="https://inews.gtimg.com/news_bt/OmLLrKKESoqvMYCKQ9SNQ9_2lEImj_XMesJGwsJjCuwtkAA/641"></section> </section> <section> <section> <section> <section> <section> <section> <section> <section> <section> <p><strong>03.</strong></p> </section> </section> </section> </section> </section> </section> </section> </section> <section> <section> <section> <section> <section> <p><strong>面向长音频的数据处理</strong></p> </section> </section> </section> </section> <section> <section> <section> <section></section> </section> </section> <section> <section> <p>&nbsp;</p> </section> </section> </section> </section> </section> <section> <p>为了优化Muyan-TTS在长音频生成场景下的表现，我们构建了超过10万小时的高质量语音及对应转录的训练语料。数据处理采用三阶段流程：</p> <ul class="list-paddingleft-1"> <li> <p><strong>收集与转录：</strong>结合开源数据集与自建数据源采集，基于最大化覆盖说话人数和语言的差异性的目标，每个音频被分割成1分钟的片段均匀采样，收集了超过15万小时的原始数据并使用Whisper和Fun ASR进行转录；</p> </li> </ul> <ul class="list-paddingleft-1"> <li> <p><strong>音频清洗：</strong>引入MSS、DeReverb、DeEcho、Denoise、NeMo等模块，仅保留人声轨道、单speaker、过滤背景噪声与混响、进一步提升语音的清晰度和可理解性；</p> </li> </ul> <ul class="list-paddingleft-1"> <li> <p><strong>质量过滤：</strong>使用 NISQA 评估每段音频的MOS分数，仅保留MOS&gt;3.8内容。</p> </li> </ul> <p>最终数据集通过 NVIDIA A10 机器完成预处理，总清洗时长约为 60,000 GPU小时。</p> </section> <section> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/news_bt/O5HdLFsoX5B6TiLGXiwWHY3J-m7zxj2oV-_9xvR9vTcSAAA/641" alt="图片" data-src="https://inews.gtimg.com/news_bt/O5HdLFsoX5B6TiLGXiwWHY3J-m7zxj2oV-_9xvR9vTcSAAA/641"></section> </section> <section> <section> <section> <section> <section> <section> <section> <section> <section> <p><strong>04.</strong></p> </section> </section> </section> </section> </section> </section> </section> </section> <section> <section> <section> <section> <section> <p><strong>训练策略与资源成本</strong></p> </section> </section> </section> </section> <section> <section> <section> <section></section> </section> </section> <section> <section> <p>&nbsp;</p> </section> </section> </section> </section> </section> <section> <p>我们的训练分为三个阶段：</p> <p><strong>阶段一：</strong>基于清洗的语音-文本平行语料继续预训练大语言模型，获取zero-shot TTS的能力。在80张A100组成的计算集群上训练了约10天。</p> <p><strong>阶段二：</strong>在单一speaker数据上基于base模型SFT，提升特定声音的合成效果。训练成本相比预训练可以忽略不计。</p> <p><strong>阶段三：</strong>SoVITS解码器微调，对高质量长音频片段（MOS&gt;4.5）进行专向训练，强化语音自然度与清晰度。</p> <p>整个训练过程消耗的资源与成本如下：</p> </section> <section> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/news_bt/OyeVaMpYa-TT0kSeyk0vMEkf5pZ2ggrxiEu2s0nTUVQkYAA/641" alt="图片" data-src="https://inews.gtimg.com/news_bt/OyeVaMpYa-TT0kSeyk0vMEkf5pZ2ggrxiEu2s0nTUVQkYAA/641"></section> </section> <section> <section> <section> <section> <section> <section> <section> <section> <section> <p><strong>05.</strong></p> </section> </section> </section> </section> </section> </section> </section> </section> <section> <section> <section> <section> <section> <p><strong>实验评测</strong></p> </section> </section> </section> </section> <section> <section> <section> <section></section> </section> </section> <section> <section></section> </section> </section> </section> </section> <section> <section> <section> <section> <p><em>推理优化与部署适配</em></p> </section> </section> </section> </section> <section> <p>针对LLM在推理端的高延迟痛点，Muyan-TTS构建了一套系统性优化方案：一方面，深度集成vLLM推理引擎，充分释放大语言模型的并行计算潜力，显著提升推理效率；另一方面，创新引入动态句长切分与批量处理合成技术，有效减少资源等待时间，增强处理灵活性。</p> <p>经实测验证，在非流式推理模式下，Muyan-TTS的语音合成效率表现卓越&mdash;&mdash;平均每生成1秒语音仅需0.33秒推理时间，相比同类开源TTS模型具有显著性能优势，为实时语音交互场景提供了更高效的解决方案。</p> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/news_bt/OLKJw2egG7Y5S-fUxiI8vm8VHMI74r8L5G0QDd0N-YBjIAA/641" alt="图片" data-src="https://inews.gtimg.com/news_bt/OLKJw2egG7Y5S-fUxiI8vm8VHMI74r8L5G0QDd0N-YBjIAA/641"></section> </section> <section> <section> <section> <section> <section></section> </section> </section> </section> <section> <section> <section> <p><em>性能对比</em></p> </section> </section> </section> </section> <p>在LibriSpeech和SEED两大标准评测集上，我们评估了Muyan-TTS与主流开源TTS模型的性能表现，主要指标涵盖词错率（WER）、语音质量评分（MOS）与说话人相似度（SIM）：</p> <section> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/news_bt/OZxTm6RSmE_Vzwt8pqI0m_KS1NYcstN0VtJ4xg91tmQw0AA/641" alt="图片" data-src="https://inews.gtimg.com/news_bt/OZxTm6RSmE_Vzwt8pqI0m_KS1NYcstN0VtJ4xg91tmQw0AA/641"></section> </section> <p>同时，在微调（SFT）后，Muyan-TTS在语音质量（MOS）与个性化能力（SIM）方面进一步提升，适配小规模个人语音数据集的声音定制。</p> <section> <section> <section> <section> <p><em>生成示例</em></p> </section> </section> </section> </section> <section data-id="125388" data-pm-slice="0 0 []" data-role="title" data-tools="135编辑器"> <section> <section><strong data-brushtype="text">Base Model</strong></section> </section> </section> <section data-id="125388" data-role="title" data-tools="135编辑器"> <section> <section><strong data-brushtype="text">SFT Model</strong></section> </section> </section> <section></section> <section> <p>我们相信就像《her》中的Samantha，语音会成为人和AI交互的核心方式，并使每个人都能拥有随时可交流的AI朋友。</p> <p>Muyan-TTS只是我们在语音技术上一个非常微小的尝试，无论是模型结构、数据制备和训练方法都还有很大的改良空间，我们也期待对语音技术有爱好、愿意深度研究TTS和实时语音交互等领域的朋友能够一起加入这个行列。</p> </section>

Spark-TTS

<p>Overview Spark-TTS 是由出门问问（Mobvoi）联合多所顶尖学术机构（如香港科技大学、上海交通大学）最新推出的新一代语音合成模型，其核心创新在于BiCodec编码技术和与文本大模型的结构统一性，利用大型语言模型 (LLM) 的强大功能实现高度准确且自然的语音合成。</p> <p>Spark-TTS is an advanced text-to-speech system that uses the power of large language models (LLM) for highly accurate and natural-sounding voice synthesis. It is designed to be efficient, flexible, and powerful for both research and production use. Key Features Simplicity and Efficiency: Built entirely on Qwen2.5, Spark-TTS eliminates the need for additional generation models like flow matching. Instead of relying on separate models to generate acoustic features, it directly reconstructs audio from the code predicted by the LLM. This approach streamlines the process, improving efficiency and reducing complexity. High-Quality Voice Cloning: Supports zero-shot voice cloning, which means it can replicate a speaker's voice even without specific training data for that voice.</p> <p>This is ideal for cross-lingual and code-switching scenarios, allowing for seamless transitions between languages and voices without requiring separate training for each one. Bilingual Support: Supports both Chinese and English, and is capable of zero-shot voice cloning for cross-lingual and code-switching scenarios, enabling the model to synthesize speech in multiple languages with high naturalness and accuracy. Controllable Speech Generation: Supports creating virtual speakers by adjusting parameters such as gender, pitch, and speaking rate. Inference Overview of Voice Cloning Inference Overview of Controlled Generation</p>

CosyVoice

FunAudioLLM/CosyVoice（https://github.com/FunAudioLLM/CosyVoice）项目是一个开源的多语言语音生成模型，它支持推理、训练和部署全流程。该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型，以及 CosyVoice-ttsfrd 资源。用户可以通过克隆 GitHub 仓库并安装 Conda 环境来获取和使用这些模型。项目提供了详细的安装指南和基础使用示例，包括零样本、跨语言和指令式推理。此外，还有一个 Web 演示页面，用户可以通过它快速体验 CosyVoice 的功能。对于高级用户，项目还提供了训练和部署的脚本和指导。CosyVoice 支持的语言包括中文、英文、日文、粤语和韩语等。 CosyVoice2.0 是阿里开源的多语言大规模语音生成模型，支持的语言包括中文、英文、日文、粤语和韩语等。本版本部署在autodl云。

GPT-SoVITS

1分钟语音数据也可以用来训练一个好的TTS模型！（少量声音克隆）.零样本 TTS：输入 5 秒的声音样本并体验即时文本到语音的转换。 Github上超过4万个星星

LOVO AI

<p>AI语音生成器是什么</p> <p>AI语音生成器是一种利用人工智能技术将文本转换为语音的工具Genny是LOVO AI开发的一款先进的AI语音生成器，它具备500+种声音和100种语言的支持，能够为视频、营销、培训、社交媒体等内容创作提供高质量的语音Genny的特点在于其超逼真的声音，几乎无法与真实人类的声音区分开来 AI语音生成器的主要功能和特点 </p> <p>Genny的主要功能和特点包括：超逼真的AI声音，支持100多种语言集成的视频编辑功能，方便用户创建和编辑视频文本到语音同步，确保音视频完美匹配自动字幕生成，支持20多种语言 AI脚本编写功能，帮助用户快速生成专业脚本声音克隆技术，只需一分钟音频即可创建自定义声音 AI艺术生成器，快速生成高清免版权图片团队协作功能，支持云端存储和项目共享适用于开发者的API，允许在应用程序或服务中使用先进的声音</p> <p>如何使用AI语音生成器使用Genny非常简单，用户只需通过网页浏览器登录即可开始使用</p> <p>以下是每个功能的使用方法和应用场景：文本到语音：用户输入文本，选择合适的声音和语言，Genny将自动生成语音，适用于视频配音、有声读物等视频编辑：用户可以上传视频，使用Genny的视频编辑工具进行剪辑和增强，然后添加生成的语音自动字幕：在视频编辑过程中，Genny可以自动生成字幕，支持多种语言，帮助全球观众理解内容</p> <p>AI脚本编写：当用户遇到创作瓶颈时，Genny的AI脚本编写功能可以提供帮助，快速生成专业脚本声音克隆：用户可以上传自己的音频样本，Genny将根据样本创建独特的声音，适用于品牌宣传和个性化内容 AI语音生成器的适用人群 Genny适用于广泛的用户群体，包括内容创作者、营销人员、教育工作者、企业培训师以及任何需要为视频或音频添加语音的人 AI语音生成器的价格根据LOVO AI的官方网站，Genny提供免费的基础服务，用户可以免费开始使用具体的付费计划可能包括更多的功能和高级选项，但具体的价格信息需要直接在官方网站上查询 AI语音生成器产品总结 Genny作为一款AI语音生成器，以其高度逼真的声音和全面的功能，为内容创作者和其他用户提供了强大的工具它不仅能够节省时间和成本，还能提升视频和音频项目的专业度Genny的易用性和灵活性使其成为市场上值得关注的AI语音生成器之一</p>

Suno Music Generator

Innovative AI music generator.

Suno AI Music Generator AI

Create SunoAI music for free

分类导航