文章来源:智汇AI 发布时间:2025-08-22
快手再掀AI技术风暴!基于Qwen3-8B-Base的Klear-Reasoner模型在数学推理测试中狂揽90.5%准确率(AIME2024),碾压同规模开源模型,成为“小体积、高智商”的标杆。其独…
暂无访问快手又甩出一张“王炸”!基于Qwen3-8B-Base打造的Klear-Reasoner模型,在数学推理领域直接干到90.5%准确率(AIME2024测试),碾压同规模开源模型,堪称“学霸级AI”。
传统模型训练常被“梯度裁剪”卡脖子——裁剪过猛丢信息,模型变保守;不裁剪又容易训练崩溃。快手独创的GPPO算法另辟蹊径,通过“温和梯度反向传播”让所有梯度参与计算,既保留探索空间,又加速纠错,直接把模型稳定性与探索能力拉满。
AIME2024测试:90.5%准确率,突破90%大关;AIME2025测试:83.2%优秀成绩,持续领跑;对比实验:在GSM8K等数学基准上,准确率超Llama3.1等主流模型。
快手团队首次公开“炼丹秘籍”:
数据筛选:SFT阶段狠抓高质量样本,过滤错误数据,效率直接翻倍;软奖励策略:强化学习用“模糊奖励”替代非黑即白判断,模型学习更稳定;错误保留:高难样本中保留部分错误,让模型学会“纠错”,避免过拟合。Klear-Reasoner的突破不仅证明“小模型也能高智商”,更给行业指了条明路:
成本降低:中小团队无需堆算力,也能训出高推理能力模型;应用拓展:教育、金融、科研等领域,精准数学推理需求迎来新工具;技术普惠:开源策略让更多开发者能复现“快手方案”,推动AI技术下沉。快手这次用Klear-Reasoner证明:AI的“智商”不再被模型体积绑架。随着GPPO算法的普及,未来我们可能看到更多“小而精”的垂直领域模型,用更低的成本解决更复杂的问题。
总结:
从“大力出奇迹”到“技巧制胜”,快手用Klear-Reasoner给AI行业上了一课——技术创新比单纯堆料更重要。对于需要数学推理能力的开发者来说,这或许是一个“弯道超车”的好机会。
项目地址:https://github.com/suu990901/KlearReasoner/tree/main
模型地址:https://huggingface.co/Suu/Klear-Reasoner-8B
温馨提示:以上2个链接均为海外网站,需要科学上网