Xiaomi MiMo:小米开源的首个“为推理而生”的大模型

AI快讯 2025-05-07 15:09更新网络

Xiaomi MiMo 是小米公司于 2025 年 4 月 30 日宣布开源的首个为推理而生的ai大模型。MiMo - 7B 系列模型通过充分挖掘语言模型的推理潜力,不仅关注后训练,还注重针对推理的预训练策略。该系列模型在相对较小的 7B 规模下,展现出超越许多 32B 模型的推理能力,其中 MiMo - 7B - RL 在数学和代码推理任务上的表现可与 OpenAI o1 - mini 相媲美。

Xiaomi MiMo:小米开源的首个“为推理而生”的大模型.webp

MiMo核心特点

预训练

数据预处理优化:改进文本提取工具包,采用多维数据过滤,增加预训练数据中的推理模式密度。

合成数据生成:运用多种策略生成大量多样化的合成推理数据。

三阶段数据混合:预训练采用三阶段数据混合策略,MiMo - 7B - Base 在约 25 万亿个标记上进行预训练。

多令牌预测:引入多令牌预测作为额外训练目标,提升模型性能并加速推理。

后训练

优质训练数据:精心挑选 130K 个数学和代码问题作为 RL 训练数据,每个问题都经过仔细清理和难度评估,并使用基于规则的验证器确保数据质量。

代码奖励机制:针对具有挑战性的代码问题,引入测试难度驱动的代码奖励,通过为不同难度的测试用例分配细粒度分数,优化策略。

数据重采样:对简单问题实施数据重采样策略,提高滚动采样效率,稳定策略更新。

RL 基础设施

无缝滚动引擎:开发无缝滚动引擎,集成连续滚动、异步奖励计算和提前终止功能,减少 GPU 空闲时间,使训练速度提高 2.29 倍,验证速度提高 1.96 倍。

MTP 支持:在 vLLM 中支持 MTP,并增强 RL 系统中推理引擎的鲁棒性。

MiMo模型版本

MiMo - 7B - Base:具有卓越推理潜力的基础模型

MiMo - 7B - RL - Zero:从基础模型训练的 RL 模型

MiMo - 7B - SFT:从基础模型训练的 SFT 模型

MiMo - 7B - RL:从 SFT 模型训练的 RL 模型,性能与 OpenAI o1 - mini 相当。

技术细节与创新点

预训练数据优化:通过多维度数据过滤和合成推理数据生成,提升了预训练数据的质量和推理模式密度。

MTP模块:在预训练中引入MTP模块,显著提升了推理任务的性能和推理速度。

RL基础设施:开发了无缝回放引擎(Seamless Rollout Engine),加速了RL训练和验证过程,分别实现了2.29倍和1.96倍的速度提升。

测试难度驱动奖励机制:为解决代码问题中的稀疏奖励问题,提出了基于测试难度的奖励机制,提升了模型在困难问题上的学习效率。

实验与结果

预训练模型性能

MiMo-7B-Base:在多个基准测试中超越了其他7B参数规模的开源模型,如BBH、SuperGPQA等。

推理潜力评估:采用pass@k指标评估模型的推理潜力,MiMo-7B-Base在所有基准测试中均展现出更高的pass@k分数。

后训练模型性能

MiMo-7B-RL-Zero:直接从MiMo-7B-Base进行RL训练,展现了强大的推理能力。

MiMo-7B-RL:从SFT模型进行RL训练,最终在数学和代码任务上超越了OpenAI的o1-mini模型。

具体表现:

在AIME 2025中,MiMo-7B-RL得分55.4,超过o1-mini 4.7分。

在LiveCodeBench v5和v6中,MiMo-7B-RL显著优于o1-mini。

相关链接

Hugging Face平台:https://huggingface.co/XiaomiMiMo

GitHub 仓库:https://github.com/XiaomiMiMo/MiMo

技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

相关文章