岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

港科大廣州校區(qū)創(chuàng)新優(yōu)化器Mano:為大模型訓(xùn)練開啟高效新路徑

   時(shí)間:2026-02-05 00:35:35 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

在大型語言模型訓(xùn)練領(lǐng)域,一項(xiàng)突破性研究為提升效率、降低成本帶來了全新解決方案。香港某高校科研團(tuán)隊(duì)提出名為Mano的優(yōu)化器,通過創(chuàng)新設(shè)計(jì)顯著優(yōu)化了大模型訓(xùn)練過程,在性能提升與資源消耗控制方面取得雙重突破。

傳統(tǒng)訓(xùn)練方法面臨兩大核心矛盾:既要處理參數(shù)間的復(fù)雜關(guān)聯(lián),又需控制計(jì)算資源消耗。當(dāng)前主流的AdamW優(yōu)化器如同逐題批改的教師,雖能處理單個(gè)參數(shù)卻忽視整體結(jié)構(gòu);而Muon優(yōu)化器雖嘗試統(tǒng)一處理所有維度,卻因丟失曲率信息導(dǎo)致優(yōu)化效果受限。研究團(tuán)隊(duì)通過重構(gòu)優(yōu)化邏輯,創(chuàng)造性地將訓(xùn)練過程轉(zhuǎn)化為動(dòng)態(tài)幾何探索,使模型參數(shù)在平滑數(shù)學(xué)表面自主尋找最優(yōu)路徑。

Mano的核心機(jī)制在于"旋轉(zhuǎn)斜流形"設(shè)計(jì),通過交替進(jìn)行列向與行向歸一化操作,實(shí)現(xiàn)多維參數(shù)空間的立體化探索。具體而言,該優(yōu)化器在奇數(shù)訓(xùn)練輪次執(zhí)行列方向歸一化,偶數(shù)輪次切換至行方向,這種動(dòng)態(tài)調(diào)整策略使模型能夠從不同角度解析參數(shù)關(guān)系。實(shí)驗(yàn)數(shù)據(jù)顯示,在LLaMA-350M模型訓(xùn)練中,Mano的收斂速度較Muon提升1.75倍,在1.3B參數(shù)規(guī)模下仍保持1.38倍的優(yōu)勢(shì),且隨著模型規(guī)模擴(kuò)大,性能差距進(jìn)一步拉大。

資源消耗控制方面,Mano展現(xiàn)出顯著工程優(yōu)勢(shì)。其內(nèi)存占用與SGD動(dòng)量法相當(dāng),僅為AdamW的50%,在70B參數(shù)規(guī)模的LLaMA模型訓(xùn)練中,注意力層歸一化耗時(shí)僅2.19毫秒,較Muon的110.79毫秒降低超98%。這種效率提升源于其避免復(fù)雜矩陣運(yùn)算的設(shè)計(jì),每次參數(shù)更新僅需11mn次浮點(diǎn)運(yùn)算(m、n為矩陣維度),而Muon的Newton-Schulz迭代計(jì)算量呈指數(shù)級(jí)增長(zhǎng)。

理論層面,研究團(tuán)隊(duì)證明Mano的交替歸一化過程等價(jià)于Sinkhorn-Knopp迭代算法,可確保矩陣收斂至雙隨機(jī)矩陣,從而保證優(yōu)化穩(wěn)定性。頻譜分析顯示,該優(yōu)化器在提升稀有方向更新幅度的同時(shí),完整保留奇異值原始排序,這種結(jié)構(gòu)化處理方式有效避免了Muon因白化操作導(dǎo)致的信息丟失。梯度穩(wěn)定性測(cè)試進(jìn)一步證實(shí),Mano在相同動(dòng)量系數(shù)下,梯度方差降低40%,信噪比提升25%,為持續(xù)優(yōu)化提供可靠保障。

實(shí)際應(yīng)用中,Mano展現(xiàn)出極強(qiáng)的適應(yīng)性。其實(shí)現(xiàn)僅需設(shè)置學(xué)習(xí)率、動(dòng)量系數(shù)和權(quán)重衰減三個(gè)參數(shù),超參數(shù)調(diào)優(yōu)復(fù)雜度低于AdamW。對(duì)于一維偏置參數(shù),團(tuán)隊(duì)建議沿用AdamW優(yōu)化,形成混合優(yōu)化策略。研究團(tuán)隊(duì)還開發(fā)了高維張量版本,通過循環(huán)遍歷各維度實(shí)現(xiàn)通用化處理,支持Transformer等復(fù)雜架構(gòu)的參數(shù)優(yōu)化。

與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)揭示了Mano的獨(dú)特價(jià)值:在訓(xùn)練初期,AdamW憑借自適應(yīng)學(xué)習(xí)率實(shí)現(xiàn)快速收斂;中期Muon通過頻譜歸一化展現(xiàn)優(yōu)勢(shì);而Mano在后期持續(xù)保持穩(wěn)定下降趨勢(shì),最終模型性能超越兩個(gè)基準(zhǔn)優(yōu)化器。這種訓(xùn)練階段特異性優(yōu)勢(shì),使其特別適用于需要深度優(yōu)化的超大規(guī)模模型訓(xùn)練場(chǎng)景。

該研究重新激活了流形優(yōu)化在深度學(xué)習(xí)領(lǐng)域的應(yīng)用潛力。通過將經(jīng)典數(shù)學(xué)理論與現(xiàn)代工程實(shí)踐結(jié)合,團(tuán)隊(duì)證明適當(dāng)改造的傳統(tǒng)方法仍能解決前沿技術(shù)難題。這種研究范式為優(yōu)化器設(shè)計(jì)提供了新思路:在追求算法創(chuàng)新的同時(shí),深度挖掘現(xiàn)有理論的改造空間,往往能產(chǎn)生兼具理論美感與實(shí)用價(jià)值的解決方案。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 天天色综合色 | 亚洲国产精品成人综合久久久 | 四虎啪啪| 男人的天堂视频在线 | 日日夜夜精品视频免费 | 久久精品视频3 | 亚洲巨乳在线 | 欧美精品一级片 | 在线观看毛片av | 四虎影视在线播放 | 一级片精品 | 日韩在线播放视频 | 国产色一区 | 久久在线免费视频 | 日韩手机看片 | 亚洲最大av在线 | 亚洲成人三级 | 六月丁香综合 | 91免费看片 | 日韩网站在线观看 | 国产一二区 | 亚洲丝袜综合 | 国产又粗又黄的视频 | 黄色一级大片免费版 | 观看av在线 | 欧美黄色性视频 | 国产精品一区二区免费看 | 日韩中文字幕在线播放 | 亚洲操一操 | 成人香蕉视频在线观看 | 久久综合九色综合欧美狠狠 | 伊人久色| 成人看片黄a免费看视频 | 在线观看亚洲欧美 | 毛片黄色片 | 在线不卡一区 | 欧美五月婷婷 | 国产亚洲精品码 | 五月婷婷综合久久 | 久久嫩草精品久久久久 | 国产成人在线免费观看视频 |