预训练 - 梅斯AI导航站

PathoDuet

上海交通大学清源研究院的研究人员提出了PathoDuet框架，针对病理切片图像的特点，设计了跨尺度定位和跨染色迁移两个预训练任务，有效利用了图像放大倍数和染色方式之间的关联性。PathoDuet在结直肠癌分型和免疫组化标记物表达预测等任务中优于现有方法。此外，通用病理基础模型UNI[39]在超过100万张诊断切片上进行了大规模无监督学习，并在34个任务中展现了卓越的性能。该模型支持分辨率无关分类、

PathChat

PathChat，一个专为人类病理学设计的视觉-语言通用AI助手。PathChat结合了专门适应病理学的视觉编码器与预训练的大语言模型，在超过456,000个多样化的视觉-语言指令上进行微调，展现出卓越的性能。

Swin-UMamba

中国科学院深圳先进技术研究院提出的Swin-UMamba进一步推动了图像分割任务中的模型架构优化。与TransUNet不同，Swin-UMamba基于Swin Transformer的层次化特性，通过局部自注意力机制有效捕捉多尺度特征，同时充分利用了在ImageNet上预训练的优势，结合基础模型在自然图像上学到的知识，大幅提升了模型在医疗影像任务中的数据效率和性能，展现了出色的迁移能力。Swin-

TANGLE

TANGLE，一种幻灯片 + 表达 (S+E) 预训练的方法。从概念上讲，这种方法遵循视觉语言模型中广泛采用的 CLIP 原理。在这里，我们将幻灯片与其相应的基因表达谱对齐。生成的幻灯片编码器嵌入了组织的底层分子景观，因此可以用于各种下游任务。在这项工作中，我们专注于乳腺癌和肺癌的形态学亚型以及临床前药物安全性研究中的形态学病变检测。

CHIEF-临床组织病理学影像评估基金会模型

组织病理学图像评估对于癌症诊断和亚型分类至关重要。用于组织病理学图像分析的标准人工智能方法专注于优化针对每个诊断任务的专门模型。尽管此类方法已取得一些成功，但它们对由不同数字化协议生成的图像或从不同人群采集的样本的普遍性通常有限。在此，为了应对这一挑战，我们设计了临床组织病理学影像评估基础 (CHIEF) 模型，这是一个通用的弱监督机器学习框架，用于提取病理影像特征以进行系统的癌症评估。CHIE

MADELEINE

开发能够学习通用且可迁移的 H&E 千兆像素全切片图像 (WSI) 表征的自监督学习 (SSL) 模型，在计算病理学中正变得越来越重要。这些模型有望推进诸如小样本分类、切片检索和患者分层等关键任务。现有的切片表征学习方法通常通过将切片的两个不同增强图像（或视图）对齐，将 SSL 的原理从小图像（例如 224x224 的图像块）扩展到整张切片。然而，最终的表征仍然受限于视图有限的临床和生物多样性

minimind

此开源项目旨在完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量，最小版本体积是 GPT-3 的 1/7000，力求做到最普通的个人GPU也可快速训练。项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调，直接偏好强化学习(DPO

SkyReels

skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品，号称能连续生成长视频。昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-

InternVL

InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族：利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3，一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第

nari-labs DIA-1

A TTS model capable of generating ultra-realistic dialogue in one pass.能够一次性生成超逼真对话的 TTS 模型。 Dia可以直接从文字记录生成高度逼真的对话。您可以根据音频调整输出，从而控制情绪和语调。该模型还可以生成非语言交流，例如笑声、咳嗽声、清嗓子等。为了加速研究，我们提供预训练模型检查点和推理代码的访问权限。模型

FunASR

一个基本的端到端语音识别工具包和开源 SOTA 预训练模型，支持语音识别、语音活动检测、文本后处理等。 FunASR离线文件转写软件包，提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。服务

Kimi-Audio

Kimi-Audio，这是一个开源音频基础模型，在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。通用功能：处理语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话等多种任务。最先进的性能：在众多音频基准测试中取得 SOTA 结果（参见评估和技术报告）。

CosyVoice

FunAudioLLM/CosyVoice（https://github.com/FunAudioLLM/CosyVoice）项目是一个开源的多语言语音生成模型，它支持推理、训练和部署全流程。该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型，以及 CosyVoice-ttsfrd 资源。用户

LLMs-from-scratch

构建大型语言模型（从头开始）。目前在github上超过4万个stars 从头开始逐步在 PyTorch 中实现类似 ChatGPT 的 LLM。该存储库包含用于开发、预训练和微调类似 GPT 的 LLM 的代码，并且是《从头开始构建大型语言模型》一书的官方代码存储库。在《构建大型语言模型（从零开始）》中，你将逐步从头开始编写代码，学习并理解大型语言模型 (LLM) 的工作原理。本书将指导

xiaomi mimo

在本研究中，我们推出了 MiMo-7B 系列模型，这一系列模型从零开始训练，专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明，我们的模型拥有非凡的推理潜力，甚至超越了规模更大的 32B 模型。此外，我们还对冷启动的 SFT 模型进行了强化学习训练，最终形成了 MiMo-7B-RL，它在数学和代码推理任务上均表现出色，性能堪比 OpenAI o1-mini。我们开

ZeroSearch

阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识，将其转化为一个检索模块，能够根据搜索查询生成相关内容。同时，还可以动态控制生成内容的质量，这是传统搜索引擎所不具备的特殊功能。研究人员在 NQ、TriviaQA、Pop

FastVLM

苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你“贫嘴”!而且最厉害的是，它速度快到飞起，苹果官方宣称，首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊! 视觉语言模型的 “成长烦恼” 现在的视觉语

Muyan-TTS

Muyan-TTS，一款低成本、具备良好二次开发支持的模型并完全开源，以方便学术界和小型应用团队的音频技术爱好者。当前开源的Muyan-TTS版本由于训练数据规模有限，致使其仅对英语语种呈现出良好的支持效果。不过，得益于与之同步开源的详尽训练方法，从事相关行业的开发者能够依据自身实际业务场景，灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H

Matrix-Game

昆仑万维正式开源（17B+）Matrix-Game大模型，即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地，也是工业界首个开源的10B+空间智能大模型，它是一个面向游戏世界建模的交互式世界基础模型，专为开放式环境中的高质量生成与精确控制而设计。空间智能作为AI时代的重要前沿技术，正在重塑我们与虚拟世界的

Step1X-3D

Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程，从超过 500 万个 3D 资产中筛选出 200 万个高质量数据，创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入，如文本和语义标签，基于低秩自适应（LoRA）微调实现灵活的几何控制。Step1X-3D 推动了 3

DreamFit

DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架，专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本，基于优化文本提示和特征融合，提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令，生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成，降低使用门槛。 Dre

响指HaiSnap

响指HaiSnap是AI零代码应用开发平台，通过可视化操作和拖拽式界面，用户无需编写代码可快速搭建应用，简化了开发流程。响指HaiSnap支持调用多种预训练的AI模型，涵盖文本生成、图像识别等多种功能，满足不同场景的需求。响指HaiSnap提供一键部署功能，用户可以轻松将应用发布到云端，无需复杂的服务器配置。响指HaiSnap配备了任务管理、小工具以及小游戏等多种功能模块，方便用户高效完成任务，增

TinyVLA

TinyVLA是一种面向机器人操控的视觉-语言-动作（VLA）模型，由华东师范大学和上海大学团队推出。针对现有VLA模型的不足，如推理速度慢和需要大量数据预训练，提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器，显著提高推理速度，减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试，证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先进模型OpenVLA。T

IFAdapter

IFAdapter是一种新型的文本到图像生成模型，由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战，IFAdapter通过引入两个关键组件外观标记（Appearance Tokens）和实例语义图（Instance Semantic Map）解决问题。外观标记用于捕获描述中的详细特征信息，实例语义图则将特征与特

搜索结果