关键词 "音频" 的搜索结果, 共 21 条, 只显示前 480 条
Ainee是AI笔记和学习辅助工具,帮助用户高效地捕捉、整理和分享知识。工具支持从多种来源导入学习材料,包括实时音频、文本、视频、PDF等,自动将内容转换为文本形式。Ainee能自动生成结构化的笔记、总结、思维导图、抽认卡和测验,帮助用户更好地理解和记忆信息。Ainee支持用户共享整个知识库,促进知识的流动和团队协作。Ainee注重用户数据安全和隐私保护,是学习和办公的得力助手。 Ainee的主
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生成,可分别生成人声和伴奏音轨,为后期编辑提供便利。技术架构基于语言模型(LM),结合LeLM和音乐编解码器,能并行生成音轨,音质表现接近行业领先水平,在歌词对齐能力上表现卓越。 LeVo的项目地址 项目官网: https://lev
DeepPiano 是智曲科技推出的以大模型为内核的钢琴智能应用。通过先进的人工智能技术,为钢琴演奏者和学习者提供多种便捷功能。DeepPiano 能实现智能乐谱翻页,自动识别演奏进度,无需手动操作,让演奏更加流畅。“AI 音频美颜”功能可快速优化录制的钢琴音频,去除噪音提升音质,达到专业水准。具备 AI 音乐创作能力,可根据用户即兴演奏生成五线谱,激发创作灵感。 DeepPiano的官网地址
智声云配(DubbingX) 是 AI 智能配音工具,提供语音合成(TTS)、音色迁移、歌声转换等多种功能。工具支持中文、英文、日文、粤语等多语言,拥有近2500种情绪语态,支持高度定制,满足游戏、影视、动漫、有声书等多场景需求。工具音色版权合规,支持商用,能显著降低配音成本。智声云配结合专业高校和全球配音演员资源,致力于为用户提供高质量、多样化的音频解决方案。 智声云配官网:https://d
Speakr是开源免费的AI会议助手,支持确保数据绝对私密的前提下,自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行,所有数据处理均在本地完成,彻底杜绝商业机密或敏感对话泄露的风险。用户能轻松上传多种格式的音频文件,后台自动进行转录和摘要生成,不干扰用户操作。Speakr提供交互式聊天功能,用户基于聊天界面与转录内容互动,提问或搜索相关信息,提高用户体验。 Speak
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考,生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成,包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集,包含带思维链标注的音频数据。在VGGSoun
Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音
来福是北京耳朵时间科技推出的AI私人电台应用,应用主打AI语音驱动的“陪伴型内容”,结合语音合成与场景感知实现个性化播报,为用户提供沉浸式的音频体验。用户用语音交互点播节目、提问或聊天,享受7×24小时的声音陪伴。应用融合播客、智能语音助手与定制内容推荐的多重属性,用AI生成内容替代传统主播,重新定义私人电台的使用体验。 来福官网: https://laifu.fm/ 也可以下载APP使用
CatchMe 是专业的 AIGC 检测工具,主要用在判断图片、视频和音频是否由AI生成。CatchMe基于先进的技术分析文件特征,提供详细的检测结果,包括 AI 生成的概率以及细分类别(如 AI 绘画、真实、深度伪造等)。用户上传文件进行检测,工具帮助辨别内容的真实性,广泛应用在版权保护、内容审核等领域,是应对 AI 生成内容泛滥的有力工具。 CatchMe的主要功能 图片检测:分析图片
Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列! 该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口。 Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。
ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能,为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址 项目官网:imagebind
Gradio 是一个开源的 Python 库,简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面,任何人、任何地点能轻松使用机器学习模型。Gradio 支持多种输入和输出组件,如文本、图像、音频等,适用于演示、教学和原型开发。Gradio 支持服务器端渲染(SSR),使应用更快地在浏览器中加载。Gradio提供与 Hugging Face Spaces 更紧密的集成
Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频,将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生成、上下文理解及实时问答。Glass 的设计真正隐形,不会出现在屏幕录制、截图或 Dock 中,完全不干扰用户操作。Glass支持 macOS 和 Windows 系统,用户能免费使用,且无需注册。Glass开源特性成为 AI
AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环进行自我纠错,确保生成的音频高
Eleven Music 是 ElevenLabs 推出的 AI 音乐生成工具,能根据简单的文本提示快速生成高质量、定制化的音乐作品,支持多种风格、语言和场景。用户能通过自然语言描述调整歌曲的风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确的情绪转换。生成的音乐适用电影、广告、游戏等多种商业用途,支持多语言歌词创作,提供工作室级别的音频输出,是音乐创作者、企业和广告商的理想选择。
Tunee是新一代AI音乐智能体,能帮助用户轻松创作音乐,通过文字、图片、音频等方式与Tunee交流创作想法,Tunee像专业音乐制作人一样理解并提供帮助,包括作曲、混音、制作专辑封面等。Tunee精通音乐知识,能创作多种风格的音乐,操作简单,适合所有人使用。如何使用Tunee访问官网:访问Tunee的官网:https://www.tunee.ai/。获取邀请码:访问Tunee官网获取邀请码体验。
LoomlyAI 是专注于视觉内容解决方案的 AI 平台,提供 AI 模特和智能换装功能。基于 AI 模型取代传统模特拍摄,快速生成高质量的商业图片和视频,解决模特拍摄成本高、版权复杂和流程繁琐的问题。平台产品亮点包括无 AI 感的多样化模特库、10 秒快速生成的智能换装功能及一键生成视频的功能。LoomlyAI 适用电商、社交媒体和内容创作,帮助用户高效制作视觉内容,提升商业价值。LoomlyA
Audiox 是一款 AI 驱动的音频创作工具,旨在为创作者提供便捷、高效的音频制作解决方案,帮助其轻松创建高质量的音频内容,涵盖音乐、音效等多种类型。该工具由专业团队打造,被 10,000 多名创作者所信赖,致力于打破音频制作的复杂壁垒,让音频创作变得简单且高效。
微软开源的一个项目 MarkItDown,这么小的一个工具获得了 7w+ star。 但它干的事儿特别朴素,把各种格式的文件(Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包)一键变成结构化 Markdown。 是的,保留标题、列表、表格、链接结构的那种 Markdown。 为什么我会觉得这个工具值得讲讲?因为这其实解决了一个我们常常下意识忽略的问题: 在做
HuMo 是一个统一的、以人为本的视频生成框架,旨在通过多模态输入(包括文本、图像和音频)生成高质量、细粒度且可控的真人视频。它支持强大的文本提示跟随功能、一致的主体保留以及同步的音频驱动动作。来自文本图像的 VideoGen - 使用文本提示结合参考图像自定义角色外观、服装、化妆、道具和场景。VideoGen from Text-Audio - 仅通过文本和音频输入即可生成音频同步的视频
LLaSO:大型语言和语音模型中可重复研究的基础框架完全开放的语料库+基准+参考模型,用于组合语音语言理解。LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。???? LLaSO 是什么?LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈,在一个框架中统一数据、评估和建模。LLaSO-Align (12.0M):基于 ASR 的对
只显示前20页数据,更多请搜索
Showing 169 to 189 of 189 results