关键词 "音频" 的搜索结果, 共 24 条, 只显示前 480 条
Unleash Creativity with AI
AI-powered video enhancer for high-quality resolution and quality enhancement.
Advanced AI-powered photo editing software.
Real-time AI voice changer with stunning effects.
通义千问Qwen2.5-Omni,仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。 堪称7B模型的全能冠军。
A TTS model capable of generating ultra-realistic dialogue in one pass.能够一次性生成超逼真对话的 TTS 模型。 Dia可以直接从文字记录生成高度逼真的对话。您可以根据音频调整输出,从而控制情绪和语调。该模型还可以生成非语言交流,例如笑声、咳嗽声、清嗓子等。 为了加速研究,我们提供预训练模型检查点和推理代码的访问权限。模型
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等
ChatTS专注于对时间序列的理解和推理,类似于视觉/视频/音频 MLLM 的功能。此 repo 提供了以下代码、数据集和模型ChatTS:ChatTS:通过合成数据将时间序列与 LLM 对齐,以增强理解和推理。 ChatTS原生支持任意长度和值范围的多变量时间序列数据。借助ChatTS,您可以轻松理解和推理时间序列中的 形状特征和值ChatTS特征。此外,它还可以集成到现有的 LLM 流程
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
一个基本的端到端语音识别工具包和开源 SOTA 预训练模型,支持语音识别、语音活动检测、文本后处理等。 FunASR离线文件转写软件包,提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。服务
Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。
文档在线预览项目解决方案,采用流行的 Spring Boot 框架构建,易于设置和部署。这个多功能开源项目为多种文档格式提供基础支持,包括: 支持Office文档,如doc,,,,,,,,,,,,,,,,,,等。docx,xls,xlsx,xlsm,ppt,pptx,csv,tsv,dotm,xlt,xltm,dotx,lam,dotx,xla,pages 支持wps、
Retell AI 正在利用快速、智能且适应性强的 AI 语音助手,重新定义企业与客户互动的方式。与其他公司不同,我们的尖端技术可帮助企业实现自动化通话,同时又不失人性化。 我们的目标正在改变企业与客户的沟通方式。我们预见未来,AI 助手对话将打破壁垒,使支持更便捷、互动更顺畅、企业响应速度比以往任何时候都更快。 在 Retell AI,我们不仅致力于实现通话自动化,更致力于构建一个让每个
专注于您的对话,同时 Meetily 的 AI 会自动捕获、转录和总结您的会议记录。100% 开源、自托管和隐私优先 - Granola 和 Otter AI 的完美替代品。适用于 Google Meet、Zoom 和 Teams 只需单击一下即可捕获现场会议音频 人们说话时的实时转录 人工智能生成的摘要和行动项目 100%开源,完全透明 自托管以实现完全数据控制 100% 私
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
AI-Media2Doc: 一键将视频和音频转化为小红书/公众号/思维导图等各种风格的文档。 AI创作助手源于我年初的一个想法, 作为一个喜欢阅读的人, 我更希望将一些视频内容转化为文字, 方便我进行二次阅读思考和总结记录笔记, 但市面上并没有一个好的工具来实现这个想法, 大多数工具都需要登录和付费, 我不太想在互联网上注册过多的账号, 同时也不想将自己想要总结的内容上传至除了云厂商之外的第三方
极简部署AI视频翻译配音工具 KrillinAI-一款AI视频翻译配音工具 提供了从视频下载,音频提取,音频转录,文本切割,翻译,对齐,到最终合成适配抖音,哔哩哔哩,小红书,视频号,快手等主流平台格式的一站式解决方案。 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的
Nooka是创新的AI驱动的听书应用,提供全球优质非虚构类书籍的20分钟音频摘要。用户能在通勤、运动等碎片化时间里高效吸收知识。应用最大特色是能对话,用户随时打断host提问,AI基于上下文即时回答,实现与书籍的深度互动。Nooka帮助用户高效学习,基于互动和社区交流提升学习的趣味性和深度。 Nooka的主要功能 20分钟音频摘要:将畅销非虚构类书籍的核心思想浓缩成20分钟音频,适合碎片化
DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的准确性和多样性。框架设计情感判别目标,基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明,DICE-Talk在情感准确性、对口型和视觉质量方面均优于
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
NotebookLM 不仅仅是一款工具——它是一项创新的技术,致力于帮助用户更轻松地理解复杂信息。致力于提供高效的学习和信息获取方式,NotebookLM 旨在为研究人员、学生和教育工作者等创造便捷的知识探索环境。 NotebookLM 的五大功能特色 每一个功能都能让你的学习和工作变得更简单,发现 NotebookLM 能提供的优越体验。 功能 1:一键将文档、幻灯片、图表等转化为
BookFab AudioBook Creator is an AI text-to-speech tool designed for producing high-quality audiobooks, podcasts and read-aloud content. It supports importing TXT or EPUB files and converting them to a
SeeMuseums 是创新的 AI 导览应用,为博物馆游客提供个性化、智能化的参观体验。应用具备多语言支持、智能推荐、AI 音频导览等功能,根据用户兴趣推荐艺术品和展览。用户向 AI 导游提问,获取详细解读,基于个人笔记和照片上传记录所见所感。SeeMuseums 能满足不同用户需求,提升参观乐趣,让博物馆之旅更加丰富和难忘。 SeeMuseums的主要功能 多语言支持:提供多种语言
只显示前20页数据,更多请搜索
Showing 121 to 144 of 161 results