关键词 "英语" 的搜索结果, 共 19 条, 只显示前 480 条
A Video Translation Multilingual Tool By AI VMEG是 AI 驱动的视频本地化平台,帮助用户打破语言障碍,让视频内容能触达全球观众。支持超过170种语言和7000多种声音,能快速翻译和配音视频,适用于多种视频来源,包括 YouTube、TikTok 等。AI 语音克隆技术可以在几分钟内生成逼真的语音副本,能恢复已失去的声音,为数字交互增添人性化的元素。
ClipZap provides the best AI video models and tools for Clipping, Editing and Translating. makes video creation more easier, and Pro-Level. ClipZap AI 是AI视频创作与编辑平台,专为创作者和企业设计,通过强大的 AI 技术简化视频制作流程。支持视频
豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页 Web 平台, Windows/macOS 电脑版客户端,iOS 以及安卓平台。
多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255 亿标记,并用于通用大语言模型的自回归训练和领域适配。同时,研究者开发了具有推理能力的多语言医学多选问答基准MMedBench,以评估多语言医学模型的性能。在此基础上,通过在 MMedC 上训练多个开源模型,研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色,在推理能力和问答准
A TTS model capable of generating ultra-realistic dialogue in one pass.能够一次性生成超逼真对话的 TTS 模型。 Dia可以直接从文字记录生成高度逼真的对话。您可以根据音频调整输出,从而控制情绪和语调。该模型还可以生成非语言交流,例如笑声、咳嗽声、清嗓子等。 为了加速研究,我们提供预训练模型检查点和推理代码的访问权限。模型
HiDream-I1是vivago.ai公司最新开源图像生成基础模型,拥有 17B 参数,可在数秒内达到最先进的图像生成质量。
AgentLed AI 使用协作代理实现无需编码的工作流自动化。它具有“执行智能体”功能,用于监督业务运营。这些代理会分析数据,为决策提供依据并提出改进建议。用户可以使用简单的英语命令构建自动化序列。 代理一旦设置完成即可自主运行,设定月度目标并执行相关任务。该系统包含持续学习功能,可随着时间的推移不断完善策略。AgentLed AI 致力于提高整体业务效率和增长,帮助企业从 AI 试验走向
NextGen Ambient Assist 使用您的移动设备,在几秒钟内将自然的医患对话转换为结构化的 SOAP 注释。这些注释: 自动放置在患者的 NextGen Enterprise EHR 图表中,等待提供商审核 通过诊断代码、药物和医嘱的相关建议简化现有图表 可以使用关键短语为收藏的模板触发强大的宏 兼容英语和西班牙语的患者与提供者对话
phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语
空间语音翻译:利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译:利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示: 💡 功能 我们首先实现多说话人和干扰条件下的语音翻译。 我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。 首先,语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源
AI 驱动的新概念英语学习体验:智能词汇分析、语法句型解析、中英对照,让你的英语学习更轻松、更高效。从零基础到高级水平,为你打造个性化学习之路。
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
Nooka是创新的AI驱动的听书应用,提供全球优质非虚构类书籍的20分钟音频摘要。用户能在通勤、运动等碎片化时间里高效吸收知识。应用最大特色是能对话,用户随时打断host提问,AI基于上下文即时回答,实现与书籍的深度互动。Nooka帮助用户高效学习,基于互动和社区交流提升学习的趣味性和深度。 Nooka的主要功能 20分钟音频摘要:将畅销非虚构类书籍的核心思想浓缩成20分钟音频,适合碎片化
多面鹅(OfferGoose)是AI面试模拟平台,面向求职者,通过模拟真实面试场景,帮助用户提升面试技巧和通过率。包括AI模拟面试、实时面试提醒、智能面试押题、深度面试复盘等。用户可根据求职目标选择不同职位和公司类型进行模拟面试,系统会生成相关问题。模拟面试结束后,多面鹅会提供详细反馈和分析,帮助用户发现不足并改进。支持多语言面试,包括德文、日文、法语、简体中文、英语、西班牙文、韩文等,能根据用户
Perplexity AI即将推出的新浏览器Comet将在本月正式发布。该浏览器旨在成为Google Chrome的替代品,帮助用户更高效地进行在线研究。Comet将集成Google服务,并能够访问用户的浏览历史,以便在用户请求时提供上下文相关的帮助。用户可以简单地用英语询问,例如“帮我找到上周二关于海獺的文章”,Comet会迅速找到相关内容,免去用户在打开的标签页中翻找的麻烦。 Perplex
NotebookLM 不仅仅是一款工具——它是一项创新的技术,致力于帮助用户更轻松地理解复杂信息。致力于提供高效的学习和信息获取方式,NotebookLM 旨在为研究人员、学生和教育工作者等创造便捷的知识探索环境。 NotebookLM 的五大功能特色 每一个功能都能让你的学习和工作变得更简单,发现 NotebookLM 能提供的优越体验。 功能 1:一键将文档、幻灯片、图表等转化为
Stitch 是谷歌实验室(Google Labs)推出的基于生成式AI工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。Stitch 基于 Gemini 2.5 Pro 模型的多模态能力,用户可以通过自然语言描述或上传视觉素材(如草图、截图、线框图等)生成UI设计。Stitch 能识别输入,快速生成多种设计选项,方便用户调整和优化。可以将生成的设计无缝粘贴到 F
SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。
OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈(RLHF)技术,生成的声音高度自然、流畅,几乎与人类配音无异。模型支持超过50种情感和语调标记,用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆,仅需10到30秒的音频样本
只显示前20页数据,更多请搜索