关键词 "多模态" 的搜索结果, 共 13 条, 只显示前 480 条
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh
AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入,预测数千种表征其调控活性的分子特性,评估基因变异的影响。模型基于卷积层、Transformer架构,训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势,在多项基准测试中表现顶尖,基于API向非商业研究领域开
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供
MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 MedRAG的主要功能
FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(MLLM)进行故事规划,基于风格传播适配器将角色的视觉风格应用到背景中,用 3D Agent重建角色生成真实的运动序列,基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色,为个性化
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
这个工具不仅可以自动浏览网页、填写表单,还能执行代码、分析文件,关键是整个过程完全透明可控。 主要功能 协同规划:通过对话和计划编辑器,与 AI 一起制定详细的任务执行步骤。 协同任务执行:可以随时中断和引导任务执行,直接通过网页浏览器或对话进行干预。 敏感操作保护:对于关键操作,系统会主动请求用户确认后再执行。 计划学习和检索:从之前的运行中学习经验,改进未来的任务自动化,并保存到
万象驭影是北京矩阵像素科技推出的基于多模态智能体工程的智能视频创作工具,以技术创新重构视频内容生产流程,解决行业高门槛、低效率的创作痛点。独创代理式跨模态处理系统,通过多智能体协同拆解视频物料,实现从外层标题、背景图到内层情节结构、特效运镜的智能编排。结合分布式服务架构与微服务设计,确保高并发场景下的视频处理流畅性,支持极速版、专业版、探索版等多模式剪辑,满足从商业批量混剪到专业精剪的全场景需求。
RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色,适用机器人操作、导航和多智能体协作等任务,助力具身智能从实验室走向真实场景
RoboOS 2.0 是智谱开源的跨本体大小脑协同框架,专为具身智能设计。框架支持多机器人协作,基于集成MCP协议和无服务器架构实现轻量化部署,降低开发门槛。框架包含基于云计算的大脑模块,负责高级认知与多智能体协同;分布式小脑模块群,专司机器人专项技能执行;及实时共享内存机制,强化环境态势感知能力。RoboOS 2.0 提供标准化接口,消除硬件适配差异,用技能商店实现机器人技能模块的智能匹配与一键
VikingDB 是火山引擎推出的高性能向量数据库,专为处理海量高维向量数据设计。VikingDB 支持实时同步、异步写入等多种数据写入方式,具备自研的 HNSW、IVF 等高效索引算法,可实现百亿级向量的毫秒级检索,兼容稠密与稀疏向量检索。VikingDB 提供 SaaS 控制台、API 和多种语言的 SDK,支持自动弹性扩容,广泛应用在多模态搜索、智能推荐、RAG 场景及记忆库构建等领域,助力
FinGenius 是全球首个A股AI金融博弈智能体应用。FinGenius基于多Agent博弈架构,模拟市场参与者行为,用16个超级智能体(如舆情、游资、风控等)分工协作,快速生成精准的金融分析报告。FinGenius 引入博弈论优化决策,结合“年轮记忆规则算法”记录用户投资习惯,提供个性化分析。FinGenius 支持用AI重塑金融分析,提升决策效率,为投资者和金融机构提供创新解决方案。 F
只显示前20页数据,更多请搜索
Showing 73 to 85 of 85 results