搜索结果

关键词 "Report" 的搜索结果，共 2 条, 只显示前 480 条

rStar2-Agent-强大的主动式强化学习推理模型

微软研究院的一个研究团队探索了使用主动式强化学习（agentic reinforcement learning）来实现这一目标，也就是说，模型会与专用工具环境中的工具进行交互，并根据收到的反馈调整其推理方式。而他们的探索成果便是 rStar2-Agent，这是一种强大的主动式强化学习方法。使用该方法，这个微软团队训练了一个 14B 的推理模型 rStar2-Agent-14B—— 该模型达到前沿级

Qianfan-VL – 百度开源的视觉理解模型

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸，不仅具备出色的通用能力，还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型，并在百度自研的昆仑芯 P800 上完成了全流程计算任务，展现出卓越的性能和效率。核心功能多尺寸模型：提供从轻量级到大规模的三种版本，满足不同企业和开发者的需求，适用于各种场景，从端上实

只显示前20页数据，更多请搜索