关键词 "语音克隆" 的搜索结果, 共 10 条, 只显示前 480 条
A TTS model capable of generating ultra-realistic dialogue in one pass.能够一次性生成超逼真对话的 TTS 模型。 Dia可以直接从文字记录生成高度逼真的对话。您可以根据音频调整输出,从而控制情绪和语调。该模型还可以生成非语言交流,例如笑声、咳嗽声、清嗓子等。 为了加速研究,我们提供预训练模型检查点和推理代码的访问权限。模型
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
ACE-Step,这是一个用于音乐生成的全新开源基础模型,它克服了现有方法的关键局限性,并通过整体架构设计实现了最佳性能。当前的方法在生成速度、音乐连贯性和可控性之间面临着固有的权衡。例如,基于 LLM 的模型(例如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度慢且存在结构性伪影。另一方面,扩散模型(例如 DiffRhythm)虽然能够实现更快的合成速度,但通常缺乏长距离的结构连贯性
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
极简部署AI视频翻译配音工具 KrillinAI-一款AI视频翻译配音工具 提供了从视频下载,音频提取,音频转录,文本切割,翻译,对齐,到最终合成适配抖音,哔哩哔哩,小红书,视频号,快手等主流平台格式的一站式解决方案。 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的
Addsubtitle 是基于 AI 的在线视频编辑工具,通过智能技术为用户提供便捷的字幕添加、翻译及视频编辑服务。用户可以轻松将视频翻译成100多种语言,一键添加多种语言的字幕,提升视频的全球覆盖率。直观的在线编辑器支持实时编辑字幕文本,能自定义字幕样式,包括字体、颜色、尺寸和布局等,满足不同品牌和风格的需求。 Addsubtitle的主要功能 AI 视频翻译:支持将视频翻译成100
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
JoyPix 是专注于数字人和语音合成的AI创作工具。用户可以通过上传照片创建个性化的虚拟形象,支持与虚拟形象进行语音对话。JoyPix 提供自定义虚拟形象,可以根据自己的需求进一步定制虚拟形象的外观。JoyPix支持声音克隆,用户只需上传10秒音频片段,可克隆自己的声音,生成自然流畅的语音输出。JoyPix 的文本转语音功能可以将文本转换为逼真的语音,满足多种语音合成需求。JoyPix提供了虚拟
KreadoAI是一个AIGC数字营销视频创作平台,专注于利用人工智能技术简化和优化视频内容的创作流程。用户只需输入文本或关键词,Kreado AI能创作出真实或虚拟人物的视频内容。平台提供超过 700 种数字人形象和 1600 多种语音选项,支持 140 多种语言,广泛应用于营销、教育、培训、医疗等领域。 KreadoAI 的最新版本增加了真人语音克隆、真人形象克隆、PPT 文件生成数字人口播视
OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈(RLHF)技术,生成的声音高度自然、流畅,几乎与人类配音无异。模型支持超过50种情感和语调标记,用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆,仅需10到30秒的音频样本
只显示前20页数据,更多请搜索
Showing 121 to 130 of 130 results