滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

DeepSeek與字節(jié)跳動踏進(jìn)同一條河

時間：2026-01-15 16:34:45 來源：錦緞編輯：快訊 IP：北京 發(fā)表評論無障礙通道

本文系基于公開資料撰寫，僅作為信息交流之用，不構(gòu)成任何投資建議

新年前夕，DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)新的核心論文，梁文鋒以通訊作者身份署名。論文提出了流形約束超連接（manifold-constrained HyperConnection, mHC）架構(gòu)，直指大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題。

這一工作為硬件受限的中國 AI 企業(yè)開辟了一條兼顧性能與效率的路徑，也與字節(jié)跳動早前在殘差流優(yōu)化上的探索形成關(guān)鍵呼應(yīng)，二者均瞄準(zhǔn)殘差連接這一模型基礎(chǔ)架構(gòu)進(jìn)行改造。

DeepSeek的研究，恰恰是對字節(jié)跳動“超連接”技術(shù)短板的系統(tǒng)性補(bǔ)位。這一成果不僅為大模型底層架構(gòu)的工業(yè)化落地提供了新方案，再度印證了硬件約束可轉(zhuǎn)化為創(chuàng)新動力的產(chǎn)業(yè)演進(jìn)邏輯。

自2016年ResNet 提出以來，殘差連接已成為深度學(xué)習(xí)的骨架式設(shè)計。其通過“捷徑連接”繞過層層非線性變換，從根本上緩解了梯度消失或爆炸的難題，支撐起越來越深的模型結(jié)構(gòu)。

長期以來，業(yè)界創(chuàng)新多集中于注意力機(jī)制、MoE（混合專家）等模塊，殘差流本身處于一種“靜默的穩(wěn)定”中，直至2024 年字節(jié)跳動以超連接（HyperConnection）技術(shù)打破這一局面。

字節(jié)跳動的超連接通過拓寬殘差流寬度、構(gòu)建多路并行信號流，并讓模型學(xué)習(xí)流間的交互模式，顯著提升了模型表達(dá)能力。然而，該技術(shù)在規(guī)模化訓(xùn)練中暴露出致命短板：信號發(fā)散。

DeepSeek的測試顯示，在270億參數(shù)模型的訓(xùn)練中，約12000步后梯度范數(shù)劇烈波動，訓(xùn)練崩潰；更嚴(yán)重的是，信號強(qiáng)度在第60層膨脹至輸入值的3000倍。問題的核心在于，超連接為追求表達(dá)力，放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋，但在大規(guī)模訓(xùn)練中，這一缺陷被急劇放大。

mHC的核心創(chuàng)新，是將可學(xué)習(xí)的變換矩陣約束在雙重隨機(jī)矩陣（doubly stochastic matrix）構(gòu)成的流形上。這相當(dāng)于為信號傳播設(shè)立“剛性預(yù)算”：矩陣每行、每列元素之和均為1且非負(fù)，確保輸出信號強(qiáng)度嚴(yán)格介于輸入信號的最大最小值之間，從而杜絕信號爆炸。

更關(guān)鍵的是，雙重隨機(jī)矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實(shí)驗(yàn)表明，在超連接出現(xiàn)3000倍信號放大的同一場景中，mHC的信號放大峰值僅為1..6倍。為控制計算開銷，DeepSeek 采用Sinkhorn-Knopp 迭代進(jìn)行投影，僅需20輪迭代即可收斂，額外訓(xùn)練成本被壓制在6.7%。

硬件約束倒逼的不只是算法創(chuàng)新，更是全鏈路的系統(tǒng)級優(yōu)化。超連接拓寬殘差流后，每層數(shù)據(jù)讀寫量倍增，在A800/A100的有限互聯(lián)帶寬下，芯片極易陷入“等待數(shù)據(jù)遠(yuǎn)多于計算”的效率陷阱。DeepSeek通過三項關(guān)鍵技術(shù)破局：

1.算子融合：將內(nèi)存訪問模式相近的操作合并為單一GPU內(nèi)核，減少數(shù)據(jù)搬運(yùn)；

2.反向傳播重計算：不存儲中間激活值，改為實(shí)時重算，以計算換內(nèi)存；

3.流水線并行優(yōu)化：重疊跨GPU通信與本地計算，用計算掩蓋通信延遲。

這些優(yōu)化將原本隨層數(shù)線性增長的內(nèi)存開銷，轉(zhuǎn)化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內(nèi)核（bfloat16 為主，float32 保關(guān)鍵精度），實(shí)現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測試中，30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異，270億模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升 2..1%，在 DROP閱讀理解任務(wù)上提升2.3%。

此前，V3架構(gòu)論文對應(yīng)V3模型，R1推理論文對應(yīng)R1模型；本次mHC論文在 2026 年春節(jié)前三周發(fā)布，外界普遍預(yù)期下一代旗艦?zāi)Ｐ停≧2）即將亮相。

這種“論文先行”的策略，既通過同行評議建立技術(shù)公信力，又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時間戳，更向全球傳遞一個明確信息：中國 AI 企業(yè)的核心競爭力，并非依賴尖端算力芯片。

DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統(tǒng)期刊發(fā)布成果，雖犧牲部分學(xué)術(shù)聲望，卻換來了技術(shù)傳播的速度與可達(dá)性。這種開放模式加速了知識擴(kuò)散，也對同行構(gòu)成直接競爭壓力：當(dāng) mHC 的性能增益可量化、實(shí)現(xiàn)可復(fù)現(xiàn)時，西方實(shí)驗(yàn)室要么跟進(jìn)類似技術(shù)，要么必須論證自身路徑的優(yōu)越性。

此前R1 型已觸發(fā)推理模型研發(fā)熱潮，mHC架構(gòu)很可能推動殘差流優(yōu)化進(jìn)入新一輪迭代。更重要的是，這一模式向技術(shù)管制者傳遞了清晰信號：硬件限制并未扼殺創(chuàng)新，反而迫使中國 AI 企業(yè)走向“從數(shù)學(xué)根源解決問題” 的最本質(zhì)路徑。

字節(jié)跳動與 DeepSeek，先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路，卻止步于規(guī)模化瓶頸；后者在硬件約束的倒逼下，憑借數(shù)學(xué)約束與系統(tǒng)級優(yōu)化，架起了一座可通航的技術(shù)之橋。

距離2026年春節(jié)僅剩六周，R2模型的發(fā)布將檢驗(yàn)mHC架構(gòu)的工業(yè)化成色。無論最終基準(zhǔn)測試結(jié)果如何，這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明，AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石，而是催生真正核心突破的催化劑。

更多>同類資訊

前OpenAI高管穆拉蒂新公司兩位聯(lián)合創(chuàng)始人離職

01-15

小米潘九堂：模仿是創(chuàng)新基礎(chǔ)，沒有企業(yè)只靠模仿取得成功

01-15

雷軍宣布今晚8點(diǎn)再次直播

01-15

雷軍：新一代SU7已到最后階段，在發(fā)布前將安排展車到店

01-15

Anthropologie、OpenAI和SpaceX已開始籌備IPO

01-15

谷歌在Gemini中推出個人智能功能

01-15

姚班傳奇陳立杰入職OpenAI！16歲保送清華，30歲拿下UC伯克利助理教授

01-15

千問App接入「阿里全家桶」，可以點(diǎn)外賣、訂車票了

01-15

千問正式發(fā)布任務(wù)助理1.0

01-15

順豐控股與極兔速遞宣布戰(zhàn)略相互持股，交易金額達(dá)83億港元

01-15

侵權(quán)東方甄選，自媒體「說書人土土」被判賠20萬元

01-15

西貝將關(guān)閉102家門店，賈國龍：消息屬實(shí)

01-15

極兔速遞與順豐控股達(dá)成戰(zhàn)略股權(quán)交換協(xié)議，交易總額約83億港元

01-15

雷軍官宣今晚8點(diǎn)將再次開啟直播深度解讀新一代小米SU7

01-15

REDMI Turbo 5 Max今天官宣：全球首發(fā)天璣9500s

01-15

點(diǎn)擊查看更多 +

全站最新

京東物流濰坊新倉啟航：超1.4萬平米倉儲空間日均出庫量破2萬單

科技與創(chuàng)意交融：2700平互聯(lián)網(wǎng)公司辦公空間設(shè)計新典范

絕味食品“熱鹵杯”冬季爆火：精準(zhǔn)洞察需求，開辟鹵味新賽道

世優(yōu)科技AI數(shù)字人“桂飛飛”落地南寧機(jī)場，開啟智慧出行服務(wù)新篇章

2025年汽車市場成績斐然：產(chǎn)銷雙超3400萬，新能源出口齊頭并進(jìn)

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

熱門內(nèi)容

本欄最新

提前三月官宣！新一代小米SU7 4月上市，路測超1500萬公里有底氣

雷軍放話特斯拉可戰(zhàn)勝小米SU7成績亮眼新能源汽車市場競爭格局生變

雷軍1月15日晚8點(diǎn)再開直播攜媒體人及技術(shù)專家詳解新一代SU7與輔助駕駛新進(jìn)展

雷軍官宣新一代SU7臨近發(fā)布！展車將提前到店，今晚直播再聊新進(jìn)展

雷軍今晚8時再開直播，詳解新一代小米SU7，新顏色新配置驚喜不斷

成毅及家人遭跟蹤騷擾，車輛被噴紅漆、收威脅郵件，工作室已取證并報警

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek與字節(jié)跳動踏進(jìn)同一條河