关键词 "多模态" 的搜索结果, 共 24 条, 只显示前 480 条
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh
AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入,预测数千种表征其调控活性的分子特性,评估基因变异的影响。模型基于卷积层、Transformer架构,训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势,在多项基准测试中表现顶尖,基于API向非商业研究领域开
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供
MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 MedRAG的主要功能
FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(MLLM)进行故事规划,基于风格传播适配器将角色的视觉风格应用到背景中,用 3D Agent重建角色生成真实的运动序列,基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色,为个性化
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
这个工具不仅可以自动浏览网页、填写表单,还能执行代码、分析文件,关键是整个过程完全透明可控。 主要功能 协同规划:通过对话和计划编辑器,与 AI 一起制定详细的任务执行步骤。 协同任务执行:可以随时中断和引导任务执行,直接通过网页浏览器或对话进行干预。 敏感操作保护:对于关键操作,系统会主动请求用户确认后再执行。 计划学习和检索:从之前的运行中学习经验,改进未来的任务自动化,并保存到
万象驭影是北京矩阵像素科技推出的基于多模态智能体工程的智能视频创作工具,以技术创新重构视频内容生产流程,解决行业高门槛、低效率的创作痛点。独创代理式跨模态处理系统,通过多智能体协同拆解视频物料,实现从外层标题、背景图到内层情节结构、特效运镜的智能编排。结合分布式服务架构与微服务设计,确保高并发场景下的视频处理流畅性,支持极速版、专业版、探索版等多模式剪辑,满足从商业批量混剪到专业精剪的全场景需求。
RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色,适用机器人操作、导航和多智能体协作等任务,助力具身智能从实验室走向真实场景
RoboOS 2.0 是智谱开源的跨本体大小脑协同框架,专为具身智能设计。框架支持多机器人协作,基于集成MCP协议和无服务器架构实现轻量化部署,降低开发门槛。框架包含基于云计算的大脑模块,负责高级认知与多智能体协同;分布式小脑模块群,专司机器人专项技能执行;及实时共享内存机制,强化环境态势感知能力。RoboOS 2.0 提供标准化接口,消除硬件适配差异,用技能商店实现机器人技能模块的智能匹配与一键
VikingDB 是火山引擎推出的高性能向量数据库,专为处理海量高维向量数据设计。VikingDB 支持实时同步、异步写入等多种数据写入方式,具备自研的 HNSW、IVF 等高效索引算法,可实现百亿级向量的毫秒级检索,兼容稠密与稀疏向量检索。VikingDB 提供 SaaS 控制台、API 和多种语言的 SDK,支持自动弹性扩容,广泛应用在多模态搜索、智能推荐、RAG 场景及记忆库构建等领域,助力
FinGenius 是全球首个A股AI金融博弈智能体应用。FinGenius基于多Agent博弈架构,模拟市场参与者行为,用16个超级智能体(如舆情、游资、风控等)分工协作,快速生成精准的金融分析报告。FinGenius 引入博弈论优化决策,结合“年轮记忆规则算法”记录用户投资习惯,提供个性化分析。FinGenius 支持用AI重塑金融分析,提升决策效率,为投资者和金融机构提供创新解决方案。 F
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的
Learn About是谷歌推出的对话式AI学习助手,基于谷歌的 Gemini 模型,用问答形式提供简明答案,引导用户逐步深入学习,实现互动式辅导。Learn About能梳理知识点,提供详细的参考资料,帮助用户理解和掌握复杂概念,连接不同知识点,增强理解深度。Learn About适于多学科知识探索,支持图像、视频和文章等多模态学习资源,为用户提供沉浸式学习体验。 Learn About的产品
ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能,为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址 项目官网:imagebind
GPT-5 是 OpenAI 最新推出的人工智能模型,是目前最强模型,面向所有用户开放。GPT-5是一个统一系统,包括一个基础模型用在解答常见问题,一个深度推理模型(GPT-5 思维模块)用在处理复杂难题,一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令(如“仔细思考”)智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色,大幅减少幻觉和错误,回答更贴近真实情况。GPT
NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化,在 Windows 平台上支持后台浏览器控制,实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini 等多种主流语
FlowSpeech 是创新的 AI 文本转语音(TTS)工具,专注于将书面语转换为自然流畅的口语。通过上下文感知和多模态技术,解决了传统 TTS 在语调变化和情感表达上的不足,让 AI 生成的语音听起来更生动、自然。FlowSpeech 具备智能内容筛选功能,能自动识别并剪裁不适合朗读的内容,如广告信息和无意义字符串,显著提升语音输出质量。 如何使用FlowSpeech 网页端使用
AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环进行自我纠错,确保生成的音频高
智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner(GE)。GE基于约3000小时真实机器人操控视频数据,整合未来帧预测、策略学习与仿真评估,形成闭环架构,使机器人实现从“看”到“想”再到“动”的端到端推理与执行。 链接: Project page:https://genie-envisioner.github.io/ Arxiv:https://a
GPT Proto 是整合多种顶级 AI 模型 API 的平台,涵盖文本生成、图像创作、音乐合成、视频生成等领域,支持 GPT、Claude、Midjourney、Suno 等众多模型。用户可在统一平台使用多种工具,无需管理多个账户,能无缝切换甚至结合模型实现多模态工作流。采用按使用量付费模式,无月费和订阅要求,降低成本。所有 API 经优化托管,确保高性能与可靠性,全球分布的端点保证快速响应。面
AIRI 是开源的 AI 虚拟角色灵魂项目,能让用户拥有可互动的数字伴侣。AIRI 支持 Web、macOS 和 Windows 平台,具备多模态交互能力,包括聊天、玩游戏(如《我的世界》《异星工厂》)等。桌面版能独立运行,不干扰其他工作,支持 VRM 和 Live2D 模型,具备自动眨眼、视线追踪等动画效果。AIRI 支持语音交互,能接入多种大语言模型和语音服务。AIRI的官网地址官网地址:ht
只显示前20页数据,更多请搜索
Showing 73 to 96 of 98 results