文章来源:智汇AI 发布时间:2025-12-14
LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首
暂无访问LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。通过创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA 2.0 实现了从自回归(AR)模型到扩散模型的平滑过渡,继承了 AR 模型的知识,避免了从头训练的高昂成本。
