关键词 "推理模型" 的搜索结果, 共 2 条, 只显示前 480 条
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。 MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和通用问题解决能力。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验!
只显示前20页数据,更多请搜索