FlashMLA-DeepSeek-开源的高效-MLA-解码内核，专为Hopper-架构-GPU-设计

文章来源：智汇AI 发布时间：2025-04-18

FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA（Multi-Head Linear Attention）解码内核，专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式，提升了内存和计算效率。在 H800 SXM5 GPU 上，FlashMLA 的内存带宽可达 3000 GB s，计算性能可达 580 TFLOPS。

暂无访问

FlashMLA是什么

FlashMLA 的设计灵感源于 FlashAttention 2&3 和 Cutlass 项目，支持分页缓存和低秩压缩等技术，进一步优化了内存管理和计算性能。适用于大语言模型（LLM）的推理任务，在需要高效解码的自然语言处理（NLP）场景中表现出色。开发者可以通过简单的安装命令（python setup.py install）快速部署，运行基准测试脚本（python tests/test_flash_mla.py）验证性能。

FlashMLA的主要功能

BF16 精度支持：支持 BF16 数据格式，兼顾性能与效率。页式 KV 缓存：采用页式键值缓存机制，块大小为 64，能实现更精细的内存管理。极致性能表现：在 H800 SXM5 GPU 上，FlashMLA 在内存受限场景下可达到 3000 GB/s 的带宽，在计算受限场景下可达到 580 TFLOPS 的算力。

FlashMLA的技术原理

分块调度与并行计算：通过分块调度机制，FlashMLA 能将计算任务分解为多个小块并行处理，充分利用 GPU 的并行计算能力。优化的内存访问模式：FlashMLA 通过优化内存访问模式，减少了内存访问的开销，在处理大规模数据时，能显著提升性能。

如何使用FlashMLA

环境准备：FlashMLA 需要以下硬件和软件环境：硬件：NVIDIA Hopper 架构 GPU（例如 H800 SXM5）。软件：CUDA 12.3 及以上版本；PyTorch 2.0 及以上版本。安装 FlashMLA：通过以下命令安装 FlashMLA：python setup.py install