关键词 "强化学习" 的搜索结果, 共 6 条, 只显示前 480 条
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO
skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品,号称能连续生成长视频。 昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非
阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。 研究人员在 NQ、TriviaQA、Pop
只显示前20页数据,更多请搜索