滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek與字節跳動：殘差流創新路上接力前行共拓AI新路徑

時間：2026-01-15 13:00:36 來源：天脈網編輯：快訊 IP：北京 發表評論無障礙通道

中國AI領域再次迎來突破性進展。DeepSeek團隊近日在神經網絡架構領域取得重要創新，提出名為"流形約束超連接"（manifold-constrained HyperConnection，簡稱mHC）的新型架構，為解決大規模模型訓練中的穩定性難題提供了全新方案。這項成果以通訊作者梁文鋒為代表的研究團隊，通過數學約束與系統優化的雙重創新，在硬件受限條件下實現了性能與效率的平衡。

殘差連接自2016年ResNet架構提出以來，已成為深度學習模型的基石設計。其通過"捷徑連接"機制有效緩解梯度消失問題，支撐起現代深度學習模型的深度發展。然而隨著模型規模擴大，傳統殘差連接在信號傳播穩定性方面逐漸顯現局限。2024年字節跳動推出的超連接（HyperConnection）技術雖通過拓寬殘差流提升了模型表達能力，卻在規模化訓練中暴露出信號發散的致命缺陷。

DeepSeek的研究直指這一核心矛盾。測試數據顯示，在270億參數模型訓練中，傳統超連接架構在12000步訓練后出現梯度范數劇烈波動，第60層信號強度竟膨脹至輸入值的3000倍。研究團隊發現，問題根源在于超連接架構為追求表達能力，放棄了殘差連接原有的恒等映射約束，這種設計在小規模模型中可通過調參掩蓋，但在大規模訓練中會導致災難性后果。

mHC架構的創新性在于引入雙重隨機矩陣的流形約束。這種數學工具要求變換矩陣每行每列元素之和均為1且非負，形成嚴格的"信號預算"機制。通過將輸出信號強度限制在輸入信號的最大最小值之間，從根本上杜絕了信號爆炸的可能性。更關鍵的是，雙重隨機矩陣的組合不變性確保多層疊加后仍保持穩定，實驗顯示相同場景下信號放大峰值被控制在1.6倍以內。

為控制計算開銷，研究團隊采用Sinkhorn-Knopp迭代算法進行矩陣投影，僅需20輪迭代即可收斂，將額外訓練成本壓制在6.7%以內。這種數學創新與工程實現的完美結合，使mHC架構在保持理論優勢的同時具備實際可行性。配合基于TileLang開發的混合精度內核（以bfloat16為主，float32保障關鍵精度），實現了全參數規模下的穩定性能提升。

硬件約束倒逼出的創新不止于算法層面。針對超連接架構帶來的數據讀寫量倍增問題，DeepSeek實施了三項系統級優化：通過算子融合減少數據搬運，采用反向傳播重計算以計算換內存，以及流水線并行優化掩蓋通信延遲。這些措施將內存開銷從隨層數線性增長轉化為可由模塊大小控制的有界開銷，使30億至270億參數模型均能穩定運行。

性能測試數據印證了創新價值。搭載mHC架構的270億參數模型在BIG-Bench Hard復雜推理任務上提升2.1%，在DROP閱讀理解任務上提升2.3%。這種全參數規模的性能提升，打破了"規模越大性能越好"的簡單認知，展示了架構創新帶來的質變效應。

值得關注的是，DeepSeek選擇通過arXiv、Hugging Face等開放平臺發布成果，這種策略雖犧牲部分學術聲望，卻換來了技術傳播的速度與廣度。當mHC的性能增益可量化、實現可復現時，全球AI實驗室不得不重新評估自身技術路徑——要么跟進類似創新，要么證明現有方案的優越性。這種開放競爭模式，正在重塑AI技術發展的生態格局。

此前R1模型的發布已引發推理模型研發熱潮，mHC架構的推出很可能推動殘差流優化進入新階段。字節跳動與DeepSeek的接力創新形成有趣對照：前者率先探路卻受阻于規模化瓶頸，后者在硬件約束下通過數學與系統的雙重創新架起技術橋梁。這種發展軌跡清晰證明，硬件限制非但不是創新障礙，反而能催生更具本質性的突破。

隨著2026年春節臨近，業界普遍預期DeepSeek即將發布搭載mHC架構的下一代旗艦模型R2。無論基準測試結果如何，這條"在約束中創新"的路徑已具有里程碑意義——它向全球展示，AI競賽不只有"燒錢堆算力"的單選項，數學創新與系統優化同樣能開辟通向巔峰的道路。

更多>同類資訊

追覓CEO俞浩回應打造個人IP傳聞：拒絕虛假包裝，真誠表達即可

01-29

瑞派沖擊“港股寵物醫療第一股”：盈利困局待解，行業轉型求生

01-29

工業富聯2025年業績亮眼：凈利潤大增，高速交換機與AI服務器業務騰飛

01-29

微電新能源沖刺港交所：廣東惠州起家，三年營收超13億前景幾何？

01-29

京東智能機器人“村晚”首秀：科技賦能傳統年俗鄉村舞臺煥發新活力

其中，智能機器人演繹太極拳、與青春采銷同臺載歌載舞的特色節目，成為整場晚會的吸睛焦點，為這場盛宴注入了十足科技感。當傳統年俗遇上現代科技，這場“村晚”為光明村帶來了一次難忘過年體驗的同時，更折射出了科技普惠…

01-29

鹽城企業數字營銷破局指南：精準觸達+全鏈服務實現高效獲客

數字營銷是一個綜合體系，主要包括效果廣告（如搜索推廣、信息流廣告）、品牌形象塑造、內容營銷（如知識科普、問答）、本地生活服務推廣（如地圖標記）、官網建設以及全渠道的整合運營服務。充分利用百度地圖標注、針對本…

01-29

小米汽車再放大招！三款新車諜照流出，增程SUV與SU7加長版齊上陣

01-29

雷軍發布小米SU7 Ultra《Gran Turismo 7》宣傳片 1月29日正式上線游戲

01-29

華為HiCar 6.0.95.120邀測版來襲，HarmonyOS 6+適配車暢享智慧出行

01-29

清華攜手字節跳動新突破：AI獲“視覺腦”，開啟多模態推理新時代

01-28

Kimi K2.5實測體驗：AI集群協同作業，輕松解鎖高效生產力新境界

01-28

當AI邂逅浩瀚宇宙：復旦大學探索人工智能能否成為太空調度“多面手”

01-28

星梭科技“猛犸一號”富氧預燃室點火告捷整機投產試車近在咫尺

01-28

2026國產大模型“春節檔”激戰正酣，多模態與性價比成競爭新焦點

01-28

阿里推出Qwen3-Max-Thinking推理模型，性能比肩國際頂尖助力AI產業升級

此次升級后，千問將具備更精準的事實記憶與世界知識、專家級復雜推理能力，以及更貼合人類偏好的響應邏輯。阿里云相關負責人表示，Qwen3-Max-Thinking的推出，標志著阿里在大模型技術領域的又一次突破…

01-28

點擊查看更多 +

全站最新

瑞派沖擊“港股寵物醫療第一股”：盈利困局待解，行業轉型求生

比格比薩沖刺港股IPO，中國比薩行業格局生變未來可期？

馬云談AI時代教育變革：重點在于培養孩子好奇心與創意提問能力

鹿明機器人：數據與硬件雙線突進，商業化落地面臨哪些硬仗？

微電新能源沖刺港交所：廣東惠州起家，三年營收超13億前景幾何？

鹽城企業數字營銷破局指南：精準觸達+全鏈服務實現高效獲客

熱門內容

本欄最新

瑞派沖擊“港股寵物醫療第一股”：盈利困局待解，行業轉型求生

微電新能源沖刺港交所：廣東惠州起家，三年營收超13億前景幾何？

鹽城企業數字營銷破局指南：精準觸達+全鏈服務實現高效獲客

Engine AI攜手星際太空技術，打造首位仿生機器人航天員探索宇宙新篇

雷軍致謝用戶！小米SU7獲純電一年保值率榜首，YU7銷量也亮眼

2025年度純電車型保值率揭曉小米SU7首登榜單即斬獲“一年保值率”第一

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節跳動：殘差流創新路上接力前行 共拓AI新路徑

DeepSeek與字節跳動：殘差流創新路上接力前行共拓AI新路徑