预训练 - 梅斯AI导航站

AI-Researcher

AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具，基于大型语言模型（LLM）代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作：一是提供详细的研究想法描述，系统据此生成实现策略；二是提供参考文献，系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能，支持多领域研究，基于开源的

DreamVVT

DreamVVT 是字节跳动和清华大学（深圳）联合推出的视频虚拟试穿（Video Virtual Try-On, VVT）技术，基于扩散 Transformer（DiTs）框架，通过两阶段方法实现高保真且时间连贯的虚拟试穿效果。第一阶段从输入视频中采样关键帧，结合视觉语言模型（VLM）生成语义一致的试穿图像；第二阶段利用骨骼图和运动信息，结合预训练视频生成模型，确保视频的动态连贯性。DreamVV

通义DeepResearch – 阿里推出的开源深度研究智能体

通义DeepResearch 是阿里巴巴推出的开源深度研究智能体，专为长周期、深度信息检索任务设计。拥有 300 亿参数，每次激活 30 亿参数，支持 ReAct 模式和深度模式（Heavy Mode），后者通过迭代研究范式（IterResearch）提升复杂推理能力。智能体采用全流程合成数据方案，无需人工干预即可生成高质量数据集，突破智能体能力上限。训练流程涵盖智能体持续预训练（Agentic

RustGPT-用 Rust 编写的 Transformer 架构语言模型

RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建，不依赖任何外部机器学习框架，仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离，便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者，是一个优秀的学习项目。Rust

CWM – Meta开源的代码世界模型

CWM（Code World Model）是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

nanochat – Karpathy开源的低成本ChatGPT项目

nanochat是AI领域专家Andrej Karpathy发布的开源项目，以极低成本和高效流程训练小型语言模型，实现类似ChatGPT的对话功能。仅需约100美元（使用8张H100 GPU训练4小时），即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元（训练约41.6小时），模型性能可显著提升，能解决简单数学/代码问题并参与多项选择题测试。项目包含从数据准

搜索结果