XTuner V1-上海AI Lab开源的新一代大模型训练引擎

XTuner V1-上海AI Lab开源的新一代大模型训练引擎

文章来源:智汇AI    发布时间:2025-09-12

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,基于 PyTorch FSDP 开发,针对超大模型训练中的显存、通信和负载问题进行系统性优化

暂无访问

XTuner V1是什么

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,基于 PyTorch FSDP 开发,针对超大模型训练中的显存、通信和负载问题进行系统性优化,支持 1T 参数量级 MoE 模型训练,能在 200B 量级模型上实现训练吞吐超越传统 3D 并行方案。XTuner V1 与华为昇腾技术团队合作,进一步提升训练效率,实现更高的模型浮点运算利用率。XTuner V1 为学术界和工业界提供高性能、低门槛、易扩展的大模型训练方案。

XTuner V1

XTuner V1的主要功能

高效训练超大模型:支持1T参数量级的MoE模型训练,在200B以上量级的混合专家模型中,训练吞吐超越传统3D并行训练方案。优化显存使用:通过自动Chunk Loss机制和Async Checkpointing Swap技术,有效降低显存峰值,无需借助序列并行技术实现200B参数量级MoE模型训练64K长度序列。掩盖通信开销:用极致的显存优化提升单次迭代的最大序列长度,增加每层计算耗时以掩盖参数聚合的通信耗时;通过Intra-Node Domino-EP降低参数聚合通信量,掩盖专家并行带来的额外通信开销。实现DP负载均衡:对每n个step内的已拼接好的序列进行排序,使每次计算时不同DP的最长子序列长度接近,减少因变长注意力导致的计算空泡。适配多种硬件:与华为昇腾技术团队合作,在Ascend A3 NPU超节点上进行深度优化,充分用超节点硬件特性,在理论算力落后NVIDIA H800近20%的情况下,能实现训练吞吐反超H800近5%,MFU反超20%以上。

XTuner V1的技术原理

基于PyTorch FSDP开发:PyTorch FSDP(Fully Shard Data Parallel)是数据并行策略,将模型参数均匀切分到每张卡上,通过提前聚合参数和重新切分参数节省显存。XTuner V1在FSDP的基础上进行深度优化,解决其通信量大的问题。

相关推荐