关键词 "SFT" 的搜索结果, 共 6 条, 只显示前 480 条
Fully-native SSH terminal for spatial computing
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。 项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。 希望此项目能为所有人提供一个抛砖引玉的示例,一起感受创造的乐趣!推动更广泛AI社区的进步!
“毕升”是活字印刷术的发明者,活字印刷术在推动人类知识传播方面发挥了至关重要的作用。我们希望毕升也能为智能应用的广泛落地提供强有力的支持。欢迎大家积极参与。 BISHENG 是一个面向下一代企业 AI 应用的开放式 LLM DevOps 平台。其强大而全面的功能包括:GenAI 工作流、RAG、Agent、统一模型管理、评估、SFT、数据集管理、企业级系统管理、可观察性等。
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。 MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。
FunAudioLLM/CosyVoice(https://github.com/FunAudioLLM/CosyVoice) 项目是一个开源的多语言语音生成模型,它支持推理、训练和部署全流程。 该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型,以及 CosyVoice-ttsfrd 资源。用户可以通过克隆 GitHub 仓库并安装 Conda 环境来获取和使用这些模型。 项目提供了详细的安装指南和基础使用示例,包括零样本、跨语言和指令式推理。此外,还有一个 Web 演示页面,用户可以通过它快速体验 CosyVoice 的功能。对于高级用户,项目还提供了训练和部署的脚本和指导。CosyVoice 支持的语言包括中文、英文、日文、粤语和韩语等。 CosyVoice2.0 是阿里开源的多语言大规模语音生成模型,支持的语言包括中文、英文、日文、粤语和韩语等。本版本部署在autodl云。
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开源了 MiMo-7B 系列,包括基础模型、SFT 模型、基于基础模型训练的强化学习模型以及基于 SFT 模型训练的强化学习模型的检查点。我们相信,这份报告以及这些模型将为开发强大的推理 LLM 提供宝贵的见解,造福更广泛的社区。 亮点 预训练:为推理而生的基础模型 我们优化了数据预处理流程,增强了文本提取工具包,并应用多维数据过滤来提高预训练数据中的推理模式密度。我们还采用多种策略来生成海量多样化的合成推理数据。 我们采用三阶段数据混合策略进行预训练。总体而言,MiMo-7B-Base 在约 25 万亿个 token 上进行了预训练。 我们将多标记预测作为额外的训练目标,以增强模型性能并加速推理。 训练后食谱:先驱推理模型 我们精选了 13 万道数学和代码题作为强化学习训练数据,可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估,以确保质量。我们仅采用基于规则的准确率奖励机制,以避免潜在的奖励黑客攻击。 为了缓解高难度代码问题的稀疏奖励问题,我们引入了测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度的分数,我们能够利用密集的奖励信号更有效地优化策略。 我们针对简单问题实施数据重采样策略,以提高推出采样效率并稳定策略更新,特别是在 RL 训练的后期阶段。 强化学习基础设施 我们开发了无缝部署引擎 (Seamless Rollout Engine),以加速强化学习 (RL) 的训练和验证。
只显示前20页数据,更多请搜索