多模态 - 梅斯AI导航站

Dust

Dust is an AI assistant that helps teams improve content creation and decision-making. Dust是什么 Dust 是强大的AI Agent构建平台，帮助企业快速构建和部署定制化的 AI Agent，提升工作效率和优化业务流程。用户无需编写代码，可在几分钟内创建强大的 AI Agent，连接到公司数据，定制功

Claude

Claude，美国人工智能初创公司Anthropic发布的大型语言模型家族，拥有高级推理、视觉分析、代码生成、多语言处理、多模态等能力，该模型对标ChatGPT、Gemini等产品。 2023年3月15日，Anthropic正式发布Claude的最初版本，并开始不断升级迭代；同年7月，Claude 2正式发布；同年11月，Claude 2.1正式发布；次年3月4日，Claude 3系列正式发布。

仲景（CMLM-ZhongJing）——中文多模态医学大模型

仲景中医大语言模型（CMLM-ZhongJing）由复旦大学和同济大学联合开发，借鉴人类记忆的过程，通过对中医方药数据的深度学习与推理，建立的一个基于大语言模型的中医诊疗辅助系统。

通义tongyi

通义，由通义千问更名而来，是阿里云推出的语言模型，于2023年9月13日正式向公众开放。属于(AI Generated Content，AIGC)领域，是一个MaaS（模型即服务）的底座。为多模态大模型(Multimodal Models)。通义意为“通情，达义”，具备全副AI能力

Medical Segmentation Decathlon

医学成像分割比赛，用于通用算法的验证和测试，涵盖广泛的挑战，例如：小数据、不平衡标签、大范围对象尺度、多类别标签和多模态成像等。本次挑战赛和数据集旨在通过开源多个高度不同任务的大型医学成像数据集，并标准化分析和验证流程，提供此类资源。

OpenMEDLab

OpenMEDLab致力于提供一个集合多模态医学基础模型的创新解决方案。未来，随着平台的不断发展，我们期待看到这些技术更新在OpenMEDLab上实现和应用，进一步推动跨模态、跨领域的医学AI创新。通过在不同医学任务中的灵活应用，OpenMEDLab不仅为基础模型的适配和微调提供了支持，也为解决医学中的长尾问题、提升模型效率和减少训练成本提供了创新途径。

SurvPath

模型SurvPath利用转录组学中的生物通路标记和 WSI 中的组织学补丁标记，通过多模态 Transformer 促进记忆有效的融合。SurvPath 在来自癌症基因组图谱的五个数据集中超越了单模态和多模态基线，展示了最先进的性能。此外，我们的可解释性框架识别了关键的多模态预后因素，为基因型-表型相互作用和潜在的生物学机制提供了更深入的见解。

multimodal-cancer-origin-prediction多模态癌症起源预测

基于深度学习的组织学和基因组学多模态整合，以改善癌症起源预测

MADELEINE

开发能够学习通用且可迁移的 H&E 千兆像素全切片图像 (WSI) 表征的自监督学习 (SSL) 模型，在计算病理学中正变得越来越重要。这些模型有望推进诸如小样本分类、切片检索和患者分层等关键任务。现有的切片表征学习方法通常通过将切片的两个不同增强图像（或视图）对齐，将 SSL 的原理从小图像（例如 224x224 的图像块）扩展到整张切片。然而，最终的表征仍然受限于视图有限的临床和生物多样性

minimind

此开源项目旨在完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量，最小版本体积是 GPT-3 的 1/7000，力求做到最普通的个人GPU也可快速训练。项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调，直接偏好强化学习(DPO

SkyReels

skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品，号称能连续生成长视频。昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-

InternVL

InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族：利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3，一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第

kirara-ai

一款支持主流大语言模型、主流聊天平台的聊天的机器人！可 DIY 的多模态 AI 聊天机器人 | 🚀 快速接入微信、 QQ、Telegram、等聊天平台 | 🦈支持DeepSeek、Grok、Claude、Ollama、Gemini、OpenAI | 工作流系统、网页搜索、AI画图、人设调教、虚拟女仆、语音对话 |

NextChat AI

✨ 轻量级快速的 AI 助手，支持 Claude、DeepSeek、GPT4 和 Gemini Pro。您满足公司尖端化配置和定制需求品牌定制：企业定制VI/UI，与企业品牌形象无缝契合资源集成：由企业管理人员统一配置和管理记录种AI资源，团队成员开箱即用权限管理：成员权限、资源权限、知识库权限制度划分，企业级管理面板统一控制知识接入：企业内部知识库与AI能力相结合，比通用

UI-TARS

UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理，能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。该版本

Hunyuan3D

腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型，迎来了五款产品（Turbo、Pro、Standard、Lite、Vision）的全系列开源，构建起完整的工具链体系，标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架，到覆盖文本、图像、视频的全模态开源体系，腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。这一突破得益于腾讯自

DeTikZify

DeTikZify是一款创新工具，专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型，能够理解手绘草图或现有图片，并转换它们成为可直接用于LaTeX文档的TikZ代码，这一过程无需手动编码，大大节省了时间并提高了效率。项目技术分析该系统利用深度学习与蒙特卡洛树搜索（MCTS）的巧妙结合，实现智能迭代优化输出。这意味着，即使初始生成可能不完美，DeTikZi

Kimi-Audio

Kimi-Audio，这是一个开源音频基础模型，在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。通用功能：处理语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话等多种任务。最先进的性能：在众多音频基准测试中取得 SOTA 结果（参见评估和技术报告）。

orence潮汐AI

潮汐AIGC问答系统，聚合多模态大模型、知识库、插件和工作流等 Agent 构建能力，致力于为用户提供 LLM 大语言模型落地应用的强大在线平台。新版本采用 Gin + Vite5 TypeScript Vue3 技术栈，拥有极致的响应速度；在更简洁的界面下保留完整功能，拥有更多的细节但是更加轻量化，拥有新的UI及交互方式，内置6组不同风格的显示效果，以及更流畅的使用体验。 AI对话

napkincn

Napkin主打简洁的AI思维记录工具，通过自动结构化与可视化功能，让想法捕捉更及时，方便用户快速迭代并与团队共享创意灵感。 Napkin诞生于前Google工程师Pramod Sharma与Jerome Scholler对商业沟通效率的革命性思考。创始团队曾成功打造儿童AI教育品牌Osmo，在长达十年的产品开发过程中，他们深刻体会到文字主导的沟通方式对创意的束缚——冗长的文档与PPT不仅降低信

ChatDBA

ChatDBA 是由上海爱可生开发的一款数据库运维领域的智能辅助系统,通过对话交互,提供数据库故障诊断、专业知识学习、SQL 生成和优化等功能,旨在提升 DBA 工作效率。 ChatDBA 是一款基于大模型的智能数据库助手（Database Copilot）。通过对话交互的方式进行数据库故障诊断、数据库专业知识学习、SQL 生成与SQL优化等功能，大幅提升数据库从业者工作效率。无论中小企业还是

Matrix-Game

昆仑万维正式开源（17B+）Matrix-Game大模型，即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地，也是工业界首个开源的10B+空间智能大模型，它是一个面向游戏世界建模的交互式世界基础模型，专为开放式环境中的高质量生成与精确控制而设计。空间智能作为AI时代的重要前沿技术，正在重塑我们与虚拟世界的

Nexus-Gen

Nexus-Gen：图像理解、生成和编辑的统一模型，开源届的GPT-4o平替待办事项发布训练和推理代码。发布模型检查点。发布技术报告。发布训练数据集。什么是Nexus-Gen Nexus-Gen 是一个统一模型，它将 LLM 的语言推理能力与扩散模型的图像合成能力协同起来。为了对齐 LLM 和扩散模型的嵌入

Step1X-3D

Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程，从超过 500 万个 3D 资产中筛选出 200 万个高质量数据，创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入，如文本和语义标签，基于低秩自适应（LoRA）微调实现灵活的几何控制。Step1X-3D 推动了 3

搜索结果