在大型語言模型訓(xùn)練領(lǐng)域,一項(xiàng)突破性研究為提升效率、降低成本帶來了全新解決方案。香港某高校科研團(tuán)隊(duì)提出名為Mano的優(yōu)化器,通過創(chuàng)新設(shè)計(jì)顯著優(yōu)化了大模型訓(xùn)練過程,在性能提升與資源消耗控制方面取得雙重突破。
傳統(tǒng)訓(xùn)練方法面臨兩大核心矛盾:既要處理參數(shù)間的復(fù)雜關(guān)聯(lián),又需控制計(jì)算資源消耗。當(dāng)前主流的AdamW優(yōu)化器如同逐題批改的教師,雖能處理單個(gè)參數(shù)卻忽視整體結(jié)構(gòu);而Muon優(yōu)化器雖嘗試統(tǒng)一處理所有維度,卻因丟失曲率信息導(dǎo)致優(yōu)化效果受限。研究團(tuán)隊(duì)通過重構(gòu)優(yōu)化邏輯,創(chuàng)造性地將訓(xùn)練過程轉(zhuǎn)化為動(dòng)態(tài)幾何探索,使模型參數(shù)在平滑數(shù)學(xué)表面自主尋找最優(yōu)路徑。
Mano的核心機(jī)制在于"旋轉(zhuǎn)斜流形"設(shè)計(jì),通過交替進(jìn)行列向與行向歸一化操作,實(shí)現(xiàn)多維參數(shù)空間的立體化探索。具體而言,該優(yōu)化器在奇數(shù)訓(xùn)練輪次執(zhí)行列方向歸一化,偶數(shù)輪次切換至行方向,這種動(dòng)態(tài)調(diào)整策略使模型能夠從不同角度解析參數(shù)關(guān)系。實(shí)驗(yàn)數(shù)據(jù)顯示,在LLaMA-350M模型訓(xùn)練中,Mano的收斂速度較Muon提升1.75倍,在1.3B參數(shù)規(guī)模下仍保持1.38倍的優(yōu)勢(shì),且隨著模型規(guī)模擴(kuò)大,性能差距進(jìn)一步拉大。
資源消耗控制方面,Mano展現(xiàn)出顯著工程優(yōu)勢(shì)。其內(nèi)存占用與SGD動(dòng)量法相當(dāng),僅為AdamW的50%,在70B參數(shù)規(guī)模的LLaMA模型訓(xùn)練中,注意力層歸一化耗時(shí)僅2.19毫秒,較Muon的110.79毫秒降低超98%。這種效率提升源于其避免復(fù)雜矩陣運(yùn)算的設(shè)計(jì),每次參數(shù)更新僅需11mn次浮點(diǎn)運(yùn)算(m、n為矩陣維度),而Muon的Newton-Schulz迭代計(jì)算量呈指數(shù)級(jí)增長(zhǎng)。
理論層面,研究團(tuán)隊(duì)證明Mano的交替歸一化過程等價(jià)于Sinkhorn-Knopp迭代算法,可確保矩陣收斂至雙隨機(jī)矩陣,從而保證優(yōu)化穩(wěn)定性。頻譜分析顯示,該優(yōu)化器在提升稀有方向更新幅度的同時(shí),完整保留奇異值原始排序,這種結(jié)構(gòu)化處理方式有效避免了Muon因白化操作導(dǎo)致的信息丟失。梯度穩(wěn)定性測(cè)試進(jìn)一步證實(shí),Mano在相同動(dòng)量系數(shù)下,梯度方差降低40%,信噪比提升25%,為持續(xù)優(yōu)化提供可靠保障。
實(shí)際應(yīng)用中,Mano展現(xiàn)出極強(qiáng)的適應(yīng)性。其實(shí)現(xiàn)僅需設(shè)置學(xué)習(xí)率、動(dòng)量系數(shù)和權(quán)重衰減三個(gè)參數(shù),超參數(shù)調(diào)優(yōu)復(fù)雜度低于AdamW。對(duì)于一維偏置參數(shù),團(tuán)隊(duì)建議沿用AdamW優(yōu)化,形成混合優(yōu)化策略。研究團(tuán)隊(duì)還開發(fā)了高維張量版本,通過循環(huán)遍歷各維度實(shí)現(xiàn)通用化處理,支持Transformer等復(fù)雜架構(gòu)的參數(shù)優(yōu)化。
與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)揭示了Mano的獨(dú)特價(jià)值:在訓(xùn)練初期,AdamW憑借自適應(yīng)學(xué)習(xí)率實(shí)現(xiàn)快速收斂;中期Muon通過頻譜歸一化展現(xiàn)優(yōu)勢(shì);而Mano在后期持續(xù)保持穩(wěn)定下降趨勢(shì),最終模型性能超越兩個(gè)基準(zhǔn)優(yōu)化器。這種訓(xùn)練階段特異性優(yōu)勢(shì),使其特別適用于需要深度優(yōu)化的超大規(guī)模模型訓(xùn)練場(chǎng)景。
該研究重新激活了流形優(yōu)化在深度學(xué)習(xí)領(lǐng)域的應(yīng)用潛力。通過將經(jīng)典數(shù)學(xué)理論與現(xiàn)代工程實(shí)踐結(jié)合,團(tuán)隊(duì)證明適當(dāng)改造的傳統(tǒng)方法仍能解決前沿技術(shù)難題。這種研究范式為優(yōu)化器設(shè)計(jì)提供了新思路:在追求算法創(chuàng)新的同時(shí),深度挖掘現(xiàn)有理論的改造空間,往往能產(chǎn)生兼具理論美感與實(shí)用價(jià)值的解決方案。











