关键词 "多模态" 的搜索结果, 共 15 条, 只显示前 480 条
仲景中医大语言模型(CMLM-ZhongJing)由复旦大学和同济大学联合开发,借鉴人类记忆的过程,通过对中医方药数据的深度学习与推理,建立的一个基于大语言模型的中医诊疗辅助系统。
通义,由通义千问更名而来,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。为多模态大模型(Multimodal Models)。通义意为“通情,达义”,具备全副AI能力
医学成像分割比赛,用于通用算法的验证和测试,涵盖广泛的挑战,例如:小数据、不平衡标签、大范围对象尺度、多类别标签和多模态成像等。本次挑战赛和数据集旨在通过开源多个高度不同任务的大型医学成像数据集,并标准化分析和验证流程,提供此类资源。
OpenMEDLab致力于提供一个集合多模态医学基础模型的创新解决方案。未来,随着平台的不断发展,我们期待看到这些技术更新在OpenMEDLab上实现和应用,进一步推动跨模态、跨领域的医学AI创新。通过在不同医学任务中的灵活应用,OpenMEDLab不仅为基础模型的适配和微调提供了支持,也为解决医学中的长尾问题、提升模型效率和减少训练成本提供了创新途径。
模型SurvPath利用转录组学中的生物通路标记和 WSI 中的组织学补丁标记,通过多模态 Transformer 促进记忆有效的融合。SurvPath 在来自癌症基因组图谱的五个数据集中超越了单模态和多模态基线,展示了最先进的性能。此外,我们的可解释性框架识别了关键的多模态预后因素,为基因型-表型相互作用和潜在的生物学机制提供了更深入的见解。
基于深度学习的组织学和基因组学多模态整合,以改善癌症起源预测
开发能够学习通用且可迁移的 H&E 千兆像素全切片图像 (WSI) 表征的自监督学习 (SSL) 模型,在计算病理学中正变得越来越重要。这些模型有望推进诸如小样本分类、切片检索和患者分层等关键任务。现有的切片表征学习方法通常通过将切片的两个不同增强图像(或视图)对齐,将 SSL 的原理从小图像(例如 224x224 的图像块)扩展到整张切片。然而,最终的表征仍然受限于视图有限的临床和生物多样性。因此,我们假设,用多种标记物(例如免疫组化染色)染色的切片可以用作不同的视图,从而形成丰富的、与任务无关的训练信号。为此,我们引入了 MADELEINE,一种用于切片表征学习的多模态预训练策略。 MADELEINE 已在大量乳腺癌样本(N=4,211 个 WSI,涵盖五种染色)和肾移植样本(N=12,070 个 WSI,涵盖四种染色)上进行了双全局-局部交叉染色比对目标训练。我们展示了 MADELEINE 在各种下游评估(从形态学和分子分类到预后预测)中学习到的载玻片表征的质量,这些评估涵盖了 21 项任务,使用了来自多个医疗中心的 7,299 个 WSI。
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。 项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。 希望此项目能为所有人提供一个抛砖引玉的示例,一起感受创造的乐趣!推动更广泛AI社区的进步!
skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品,号称能连续生成长视频。 昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第一的性能。InternVL3-78B的核心技术包括:可变视觉位置编码,原生多模态预训练,混合偏好优化,以及多模态测试时间缩放。
一款支持主流大语言模型、主流聊天平台的聊天的机器人! 可 DIY 的 多模态 AI 聊天机器人 | 🚀 快速接入 微信、 QQ、Telegram、等聊天平台 | 🦈支持DeepSeek、Grok、Claude、Ollama、Gemini、OpenAI | 工作流系统、网页搜索、AI画图、人设调教、虚拟女仆、语音对话 |
✨ 轻量级快速的 AI 助手,支持 Claude、DeepSeek、GPT4 和 Gemini Pro。 您满足公司尖端化配置和定制需求 品牌定制:企业定制VI/UI,与企业品牌形象无缝契合 资源集成:由企业管理人员统一配置和管理记录种AI资源,团队成员开箱即用 权限管理:成员权限、资源权限、知识库权限制度划分,企业级管理面板统一控制 知识接入:企业内部知识库与AI能力相结合,比通用AI更贴近企业自身业务需求 安全审计:自动拦截敏感提问,支持回顾全部历史对话记录,让AI也能遵循企业信息安全规范 终端部署:企业级终端部署,支持各类终端云部署,确保数据安全和隐私保护 持续更新:提供多模态、智能体等前沿能力持续更新升级服务,常用常新、持续先进
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。 据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索: 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。 System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。
腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型,迎来了五款产品(Turbo、Pro、Standard、Lite、Vision)的全系列开源,构建起完整的工具链体系,标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架,到覆盖文本、图像、视频的全模态开源体系,腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。 这一突破得益于腾讯自主研发的3D生成加速框架FlashVDM,它打破了传统3D生成模型的效率瓶颈,将大规模3D模型的生成时间压缩至秒级,为开源社区与工业界的应用部署提供了可能。 Hunyuan3D-2.0推出了多种模型版本,以适应不同应用需求。例如,多视图版本Hunyuan3D-2-MV能够结合2—4张标准视角图片,捕捉丰富的细节,优化3D生成模型产生的效果。与此同时,mini系列模型通过架构优化与算力提升,降低了硬件要求,可在NVIDIA 4080显卡甚至苹果M1 Pro芯片上运行,使3D模型的应用更为广泛。 腾讯自2024年11月发布第一代3D生成大模型以来,持续推动行业创新。如今Hunyuan3D-2.0在文本一致性、几何精度和画面质量等多项评测中超越业内顶级大模型。
DeTikZify是一款创新工具,专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型,能够理解手绘草图或现有图片,并转换它们成为可直接用于LaTeX文档的TikZ代码,这一过程无需手动编码,大大节省了时间并提高了效率。 项目技术分析 该系统利用深度学习与蒙特卡洛树搜索(MCTS)的巧妙结合,实现智能迭代优化输出。这意味着,即使初始生成可能不完美,DeTikZify也能不断自我改进,逼近理想的图示效果,这一切都不需要额外的模型训练。其核心在于对TikZ语言的深刻理解和强大的视觉到代码的转换算法,实现了从图像到代码的无缝衔接。 应用场景 科研发表:快速将草图概念化为专业级别图形,适合论文发表。 教学辅助:教师可以迅速制作教学示意图,提升课堂讲解的直观性。 个人研究:帮助研究人员高效呈现复杂数据和理论模型。 学术共享:提供了一种标准化方式来重现和修改他人的图形,促进了学术交流。 项目特点 易用性:无论是科研新手还是专家,都能轻松上手,通过简单输入获取复杂的TikZ代码。 高精度转换:即使是细节繁复的图形,也能保持高度准确,忠实于原始设计。 交互式体验:通过Web UI或编程接口,提供了灵活的操作环境,允许实时调整和反馈。 教育资源:附带的教程和例子,使得学习和掌握TikZ编程变得更加平易近人。 开源贡献:基于强大的社区支持,持续迭代优化,任何人都能参与改进和扩展功能。 DeTikZify不仅是技术的进步,更是简化科学沟通的重要一步。它的出现预示着一个更加高效、直观的科研图表制作时代。立即尝试,让你的科学研究和文献展示更上一层楼,无需再被图形制作的繁琐细节所困扰。这个开源项目,等待着每一位寻求创新表达方式的研究者,共同探索科学之美。
只显示前20页数据,更多请搜索