关键词 "预训练" 的搜索结果, 共 7 条, 只显示前 480 条
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的
DreamVVT 是字节跳动和清华大学(深圳)联合推出的视频虚拟试穿(Video Virtual Try-On, VVT)技术,基于扩散 Transformer(DiTs)框架,通过两阶段方法实现高保真且时间连贯的虚拟试穿效果。第一阶段从输入视频中采样关键帧,结合视觉语言模型(VLM)生成语义一致的试穿图像;第二阶段利用骨骼图和运动信息,结合预训练视频生成模型,确保视频的动态连贯性。DreamVV
通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic
RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离,便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者,是一个优秀的学习项目。Rust
CWM(Code World Model)是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域,让模型能够通过模拟代码执行过程,更深层次地理解和生成代码,而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色,例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开,旨在推动代码生成和理解领域的研究,并帮助开发者更高效地
LatticeWorld 是一个开创性的多模态 3D 世界生成框架,由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5(UE5)相结合,能通过简单的文本描述和视觉指令,快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比,LatticeWorld 的效率提升超过 90 倍,且
nanochat是AI领域专家Andrej Karpathy发布的开源项目,以极低成本和高效流程训练小型语言模型,实现类似ChatGPT的对话功能。仅需约100美元(使用8张H100 GPU训练4小时),即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元(训练约41.6小时),模型性能可显著提升,能解决简单数学/代码问题并参与多项选择题测试。项目包含从数据准
只显示前20页数据,更多请搜索
Showing 49 to 55 of 55 results