Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开,为推理模型的发展提供重要的参考和复现路径。
Klear-Reasoner的项目地址
- GitHub仓库:https://github.com/suu990901/KlearReasoner/
- HuggingFace模型库:https://huggingface.co/Suu/Klear-Reasoner-8B
- arXiv技术论文:https://arxiv.org/pdf/2508.07629