文章来源:智汇AI 发布时间:2026-01-07
mHC(Manifold-Constrained Hyper-Connections)是DeepSeek团队推出的新型的神经网络架构设计方法,解决传统超连接(H
暂无访问mHC(Manifold-Constrained Hyper-Connections)是DeepSeek团队推出的新型的神经网络架构设计方法,解决传统超连接(Hyper-Connections, HC)架构在大规模训练中的稳定性问题。mHC通过将HC的残差连接空间投影到特定的流形上,恢复了残差连接的恒等映射特性,有效避免了梯度爆炸或消失的问题。mHC利用Sinkhorn-Knopp算法将残差连接矩阵投影到双随机矩阵构成的流形上,确保信号在传播过程中的均值保持不变,同时严格规范信号范数。mHC结合了高效的基础设施优化,如内核融合、选择性重计算和通信重叠等技术,确保在大规模模型中的高效实现。实验表明,mHC在训练稳定性、收敛速度和下游任务性能上均优于基线模型和HC,且在大规模训练中的时间开销仅略有增加。mHC作为一种通用框架,为深度学习架构设计提供了新的思路,有望推动下一代基础架构的演进。
