中國AI領域再次迎來突破性進展。DeepSeek團隊近日在神經網絡架構領域取得重要創新,提出名為"流形約束超連接"(manifold-constrained HyperConnection,簡稱mHC)的新型架構,為解決大規模模型訓練中的穩定性難題提供了全新方案。這項成果以通訊作者梁文鋒為代表的研究團隊,通過數學約束與系統優化的雙重創新,在硬件受限條件下實現了性能與效率的平衡。
殘差連接自2016年ResNet架構提出以來,已成為深度學習模型的基石設計。其通過"捷徑連接"機制有效緩解梯度消失問題,支撐起現代深度學習模型的深度發展。然而隨著模型規模擴大,傳統殘差連接在信號傳播穩定性方面逐漸顯現局限。2024年字節跳動推出的超連接(HyperConnection)技術雖通過拓寬殘差流提升了模型表達能力,卻在規模化訓練中暴露出信號發散的致命缺陷。
DeepSeek的研究直指這一核心矛盾。測試數據顯示,在270億參數模型訓練中,傳統超連接架構在12000步訓練后出現梯度范數劇烈波動,第60層信號強度竟膨脹至輸入值的3000倍。研究團隊發現,問題根源在于超連接架構為追求表達能力,放棄了殘差連接原有的恒等映射約束,這種設計在小規模模型中可通過調參掩蓋,但在大規模訓練中會導致災難性后果。
mHC架構的創新性在于引入雙重隨機矩陣的流形約束。這種數學工具要求變換矩陣每行每列元素之和均為1且非負,形成嚴格的"信號預算"機制。通過將輸出信號強度限制在輸入信號的最大最小值之間,從根本上杜絕了信號爆炸的可能性。更關鍵的是,雙重隨機矩陣的組合不變性確保多層疊加后仍保持穩定,實驗顯示相同場景下信號放大峰值被控制在1.6倍以內。
為控制計算開銷,研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影,僅需20輪迭代即可收斂,將額外訓練成本壓制在6.7%以內。這種數學創新與工程實現的完美結合,使mHC架構在保持理論優勢的同時具備實際可行性。配合基于TileLang開發的混合精度內核(以bfloat16為主,float32保障關鍵精度),實現了全參數規模下的穩定性能提升。
硬件約束倒逼出的創新不止于算法層面。針對超連接架構帶來的數據讀寫量倍增問題,DeepSeek實施了三項系統級優化:通過算子融合減少數據搬運,采用反向傳播重計算以計算換內存,以及流水線并行優化掩蓋通信延遲。這些措施將內存開銷從隨層數線性增長轉化為可由模塊大小控制的有界開銷,使30億至270億參數模型均能穩定運行。
性能測試數據印證了創新價值。搭載mHC架構的270億參數模型在BIG-Bench Hard復雜推理任務上提升2.1%,在DROP閱讀理解任務上提升2.3%。這種全參數規模的性能提升,打破了"規模越大性能越好"的簡單認知,展示了架構創新帶來的質變效應。
值得關注的是,DeepSeek選擇通過arXiv、Hugging Face等開放平臺發布成果,這種策略雖犧牲部分學術聲望,卻換來了技術傳播的速度與廣度。當mHC的性能增益可量化、實現可復現時,全球AI實驗室不得不重新評估自身技術路徑——要么跟進類似創新,要么證明現有方案的優越性。這種開放競爭模式,正在重塑AI技術發展的生態格局。
此前R1模型的發布已引發推理模型研發熱潮,mHC架構的推出很可能推動殘差流優化進入新階段。字節跳動與DeepSeek的接力創新形成有趣對照:前者率先探路卻受阻于規模化瓶頸,后者在硬件約束下通過數學與系統的雙重創新架起技術橋梁。這種發展軌跡清晰證明,硬件限制非但不是創新障礙,反而能催生更具本質性的突破。
隨著2026年春節臨近,業界普遍預期DeepSeek即將發布搭載mHC架構的下一代旗艦模型R2。無論基準測試結果如何,這條"在約束中創新"的路徑已具有里程碑意義——它向全球展示,AI競賽不只有"燒錢堆算力"的單選項,數學創新與系統優化同樣能開辟通向巔峰的道路。








