滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek與字節跳動：殘差流創新之路上的接力與突破

時間：2026-01-15 17:20:57 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

在深度學習領域，殘差連接自2016年ResNet架構問世以來，始終是支撐大規模神經網絡訓練的核心設計。這種通過"捷徑通道"繞過非線性變換的機制，有效緩解了梯度消失問題，使模型層數得以突破性增長。然而，隨著模型規模持續擴大，傳統殘差架構的局限性逐漸顯現，特別是在硬件資源受限的場景下，信號傳播穩定性成為制約技術突破的關鍵瓶頸。

字節跳動于2024年推出的超連接（HyperConnection）技術，通過拓寬殘差流寬度并構建多路并行信號通道，在模型表達能力上取得顯著提升。但DeepSeek團隊的實證研究揭示，該技術在270億參數規模訓練中，約12000步后會出現梯度范數劇烈波動，第60層信號強度竟膨脹至輸入值的3000倍。這種信號發散現象源于超連接架構放棄了殘差連接原有的恒等映射約束，導致大規模訓練時誤差累積失控。

針對這一難題，DeepSeek提出的流形約束超連接（mHC）架構引入雙重隨機矩陣理論，為信號傳播設立嚴格的數學邊界。該架構要求變換矩陣的每行每列元素之和均為1且非負，確保輸出信號強度始終介于輸入信號的最大最小值之間。實驗數據顯示，在相同訓練條件下，mHC架構的信號放大峰值被控制在1.6倍以內，較超連接架構的3000倍形成質的飛躍。

在計算效率優化方面，DeepSeek團隊開發了基于Sinkhorn-Knopp迭代的投影算法，僅需20輪迭代即可實現矩陣約束收斂，將額外訓練成本壓制在6.7%以內。配合算子融合、反向傳播重計算和流水線并行優化三項關鍵技術，成功將內存開銷從隨層數線性增長轉化為由模塊大小控制的有界增長。這種系統級優化使30億至270億參數模型在搭載mHC架構后，均展現出穩定的性能提升。

基準測試結果表明，270億參數模型在BIG-Bench Hard復雜推理任務中準確率提升2.1%，在DROP閱讀理解任務中提升2.3%。更值得關注的是，這種性能增益建立在不依賴尖端算力芯片的基礎之上。通過將bfloat16混合精度內核與TileLang編程框架深度結合，DeepSeek在A800/A100等主流硬件上實現了全參數規模的穩定訓練。

在技術發布策略上，DeepSeek選擇通過arXiv和Hugging Face等開放平臺率先公開研究成果，這種做法雖與傳統學術期刊路徑不同，卻顯著提升了技術擴散速度。開放源代碼和可復現的實驗數據，迫使國際同行必須直面中國團隊提出的數學約束方案，要么跟進類似技術路線，要么證明自身路徑的優越性。這種競爭態勢正在重塑全球AI研發的生態格局。

回顧技術演進脈絡，字節跳動與DeepSeek的連續突破形成有趣對照：前者率先打破殘差連接的"靜默穩定"，后者則在硬件約束下完成系統性補位。這種接力式創新印證了產業界對技術瓶頸的認知深化——當算力增長遭遇物理極限時，數學原理的深度挖掘與系統工程的精密優化，將成為突破困境的關鍵路徑。

隨著2026年春節臨近，業界普遍預期DeepSeek將發布搭載mHC架構的R2旗艦模型。無論基準測試結果如何，這種"在約束中創新"的研發模式已展現獨特價值。它證明AI競賽并非只有"堆砌算力"的單選項，硬件限制反而可能成為催生核心突破的催化劑。當西方實驗室仍在爭論模型規模與能效比時，中國團隊已通過數學創新開辟出新的技術賽道。

更多>同類資訊

阿里千問“千問小講堂”上線：作業秒判錯題分析拍題答疑免費看

來源：市場資訊（來源：IT之家）此外，其支持“拍題答疑”功能，包含千萬個真人老師講題視頻，且全部免費，號稱每一位老師的“AI助教”。此外，千問 App 全面接入高德掃街榜，并推出 AI 打電話訂餐廳的功能…

01-15

阿里通義千問“千問任務助理1.0”邀測開啟，超400場景助力AI購物新體驗

1月15日，阿里巴巴旗下通義千問今日正式上線“千問任務助理1.0”，目前以定向邀請測試形式對外開放，并計劃在邀測階段結束后向用戶全面免費開放。阿里集團副總裁吳嘉介紹，該產品旨在處理數字世界的多種任務，其核心…

01-15

Meta豪擲數十億收購Manus：AI賽道人才與技術整合新棋局啟幕

該交易已成為Meta歷史上規模第三大的收購項目，僅次于此前對WhatsApp與Scale AI的收購，消息公布后迅速引起全球科技與資本市場關注。參與Manus早期發展的投資機構表示，該公司的發展歷程是技術團…

01-15

Meta20億收購AI黑馬Manus：不拼模型拼落地，另辟蹊徑成行業新標桿

Manus的產品哲學，正好戳中了這一點，把用戶和AI的關系徹底顛覆了。這種以用戶需求為核心的產品思維，比那些只追求花哨交互的AI產品靠譜多了。 Manus的成功，給AI行業上了生動的一課，也讓我看清了未來的發…

01-15

科大訊飛“招采智能體平臺”發布，引領招采行業邁向智能化新征程

朱捷表示，這一成果成功驗證了業務深度、技術能力與信任時間的價值公式，標志著全流程無人操作的模式在央企巨型復雜場景中完全跑通，為全行業的數字化轉型提供了極具參考價值的標桿。從單點工具到體系重構，從能力展示到價…

01-15

馬斯克為何將FSD從買斷制變為訂閱制？

01-15

雷軍今晚八點將再次直播主談新一代SU7車型信息

01-15

Anthropologie、OpenAI和SpaceX已開始籌備IPO

01-15

千問App全面接入阿里生態場景，向所有用戶開放測試

01-15

國產RISC-V芯片新動向進迭時空融資超6億元

01-15

阿里千問“任務助理1.0”開啟邀測

01-15

千問App正式接入淘寶、閃購、支付寶，測試AI購物功能

01-15

雷軍：新一代SU7發布前，會提前安排展車到店

01-15

“棋圣”聶衛平逝世雷軍發文悼念偶像

01-15

DeepSeek與字節跳動踏進同一條河

01-15

點擊查看更多 +

全站最新

吉利新年限時特惠來襲！第4代帝豪4.88萬起繽越超能版5.88萬起

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

科技與創意交融：2700平互聯網公司辦公空間設計新典范

絕味食品“熱鹵杯”冬季爆火：精準洞察需求，開辟鹵味新賽道

世優科技AI數字人“桂飛飛”落地南寧機場，開啟智慧出行服務新篇章

熱門內容

本欄最新

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

絕味食品“熱鹵杯”冬季爆火：精準洞察需求，開辟鹵味新賽道

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

雷軍放話特斯拉可戰勝小米SU7成績亮眼新能源汽車市場競爭格局生變

雷軍1月15日晚8點再開直播攜媒體人及技術專家詳解新一代SU7與輔助駕駛新進展

雷軍官宣新一代SU7臨近發布！展車將提前到店，今晚直播再聊新進展

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節跳動：殘差流創新之路上的接力與突破