文章来源:智汇AI 发布时间:2025-09-09
rStar2-Agent是微软开源的仅140亿参数的数学推理模型。模型用智能体强化学习方法训练,在AIME24数学推理测试中准确率高达80.6%,超越6710亿
暂无访问rStar2-Agent是微软开源的仅140亿参数的数学推理模型。模型用智能体强化学习方法训练,在AIME24数学推理测试中准确率高达80.6%,超越6710亿参数的DeepSeek-R1。模型数学推理出色,在科学推理、智能体工具使用等任务中展现强大泛化能力。模型通过高效训练基础设施、创新算法及独特训练流程三大技术突破,实现高性能与低算力成本,为AI推理领域带来新思路。