LLaDA 2.0-蚂蚁集团开源的离散扩散大语言模型

LLaDA 2.0-蚂蚁集团开源的离散扩散大语言模型

文章来源:智汇AI    发布时间:2025-12-14

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首

暂无访问

LLaDA 2.0是什么

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。通过创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA 2.0 实现了从自回归(AR)模型到扩散模型的平滑过渡,继承了 AR 模型的知识,避免了从头训练的高昂成本。

LLaDA 2.0

LLaDA 2.0的主要功能

大规模参数扩展:LLaDA 2.0 提供了 16B 和 100B 两个版本,是目前规模最大的扩散语言模型,突破了扩散模型难以大规模扩展的限制。

相关推荐