麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的一項(xiàng)新研究,為人工智能訓(xùn)練領(lǐng)域帶來(lái)了突破性發(fā)現(xiàn)。研究者甘雨露和菲利普·伊索拉帶領(lǐng)團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過(guò)充分預(yù)訓(xùn)練的大型AI模型內(nèi)部,竟?jié)摬刂罅烤邆鋵I(yè)能力的“任務(wù)專家”,且通過(guò)隨機(jī)調(diào)整參數(shù)即可激活這些能力,甚至在某些場(chǎng)景下效果優(yōu)于傳統(tǒng)訓(xùn)練方法。
傳統(tǒng)AI訓(xùn)練通常需要針對(duì)特定任務(wù)設(shè)計(jì)算法,通過(guò)大量數(shù)據(jù)迭代優(yōu)化模型參數(shù)。而MIT團(tuán)隊(duì)的研究表明,當(dāng)模型規(guī)模足夠大且預(yù)訓(xùn)練充分時(shí),參數(shù)空間會(huì)形成類似“叢林”的結(jié)構(gòu),其中分布著各類“專家”——有的擅長(zhǎng)數(shù)學(xué)推理,有的精通編程,有的善于創(chuàng)意寫作。這種“神經(jīng)叢林”現(xiàn)象顛覆了人們對(duì)AI訓(xùn)練的認(rèn)知:無(wú)需從零培養(yǎng)新能力,只需找到并激活已存在的專家即可。
研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證了這一發(fā)現(xiàn)。他們以語(yǔ)言模型為例,隨機(jī)生成數(shù)千個(gè)參數(shù)變化,測(cè)試其在數(shù)學(xué)、編程、寫作等任務(wù)上的表現(xiàn)。結(jié)果顯示,在5億參數(shù)的小模型中,僅約5%的隨機(jī)變化能提升性能;而在320億參數(shù)的大模型中,這一比例躍升至60%以上。這意味著,大模型的參數(shù)空間中“專家”密度更高,隨機(jī)搜索找到有效解的概率顯著增加。
進(jìn)一步分析發(fā)現(xiàn),這些“專家”不僅數(shù)量多,且專業(yè)化程度高。例如,在數(shù)學(xué)任務(wù)中表現(xiàn)優(yōu)異的參數(shù)變化,在編程任務(wù)上可能效果平平,表明模型內(nèi)部形成了真正的分工。研究團(tuán)隊(duì)用“光譜差異度”指標(biāo)衡量專業(yè)化程度,發(fā)現(xiàn)隨著模型規(guī)模擴(kuò)大,專家間的差異化愈發(fā)明顯,類似人類社會(huì)中職業(yè)分工的細(xì)化。
基于這一發(fā)現(xiàn),團(tuán)隊(duì)開(kāi)發(fā)了名為RandOpt(隨機(jī)優(yōu)化)的訓(xùn)練算法。該算法分為兩步:首先隨機(jī)生成大量參數(shù)變化,篩選出在目標(biāo)任務(wù)上表現(xiàn)最佳的“專家”;然后讓這些專家組成團(tuán)隊(duì),通過(guò)集體投票解決問(wèn)題。實(shí)驗(yàn)表明,RandOpt在數(shù)學(xué)推理、編程、化學(xué)反應(yīng)預(yù)測(cè)等任務(wù)上,效果可媲美甚至超越傳統(tǒng)方法,且訓(xùn)練時(shí)間大幅縮短——無(wú)論任務(wù)復(fù)雜度如何,均只需一輪并行計(jì)算。
RandOpt的成功源于預(yù)訓(xùn)練模型的特殊結(jié)構(gòu)。研究團(tuán)隊(duì)將參數(shù)空間比作地形圖,預(yù)訓(xùn)練過(guò)程會(huì)根據(jù)不同任務(wù)數(shù)據(jù)“改造地形”,形成適合各類任務(wù)的“高原區(qū)域”。大模型的“高原”更寬廣,隨機(jī)搜索碰到有效區(qū)域的概率更高。同一任務(wù)可能存在多種解決策略,對(duì)應(yīng)參數(shù)空間中的不同區(qū)域,這種多樣性解釋了專家團(tuán)隊(duì)為何優(yōu)于單個(gè)專家。
實(shí)驗(yàn)驗(yàn)證了理論的普適性。團(tuán)隊(duì)在5億至320億參數(shù)的模型上測(cè)試RandOpt,覆蓋數(shù)學(xué)、編程、寫作、化學(xué)等領(lǐng)域。結(jié)果顯示,隨著模型規(guī)模擴(kuò)大,RandOpt的效果提升顯著。例如,在70億參數(shù)的模型中,RandOpt將數(shù)學(xué)推理準(zhǔn)確率從10%提升至85%。在視覺(jué)語(yǔ)言模型的圖像問(wèn)答任務(wù)中,RandOpt也將準(zhǔn)確率提升了12.4%,表明“神經(jīng)叢林”現(xiàn)象不僅限于文本模型。
深入分析發(fā)現(xiàn),性能提升源于多重因素。以數(shù)學(xué)任務(wù)為例,約12.3%的改進(jìn)來(lái)自推理能力提升,19.0%源于輸出格式修正。這表明“專家叢林”包含不同類型:推理專家擅長(zhǎng)解決復(fù)雜問(wèn)題,格式專家則能優(yōu)化輸出規(guī)范。在圖像生成任務(wù)中,團(tuán)隊(duì)還發(fā)現(xiàn)了“色彩專家”——不同參數(shù)調(diào)整會(huì)使圖像傾向不同色調(diào),進(jìn)一步證明了專家的多樣性。
這一發(fā)現(xiàn)對(duì)AI訓(xùn)練實(shí)踐具有重要啟示。首先,它簡(jiǎn)化了訓(xùn)練流程:傳統(tǒng)方法需多輪迭代調(diào)整超參數(shù),而RandOpt完全并行,可在3.2分鐘內(nèi)完成200個(gè)GPU集群的訓(xùn)練。其次,它改變了對(duì)預(yù)訓(xùn)練模型的理解——預(yù)訓(xùn)練不僅是起點(diǎn),更是“專家生態(tài)系統(tǒng)”的載體,后續(xù)任務(wù)只需發(fā)現(xiàn)并激活已有專家。專家團(tuán)隊(duì)方法提高了可解釋性:通過(guò)分析專家特長(zhǎng),可理解模型在何種情況下被激活,增強(qiáng)系統(tǒng)可信度。
盡管RandOpt優(yōu)勢(shì)顯著,但其應(yīng)用仍受限于預(yù)訓(xùn)練質(zhì)量。在預(yù)訓(xùn)練不充分的模型上,專家叢林現(xiàn)象不明顯,隨機(jī)搜索效果下降。專家團(tuán)隊(duì)在推理時(shí)需更多計(jì)算資源,雖可通過(guò)知識(shí)蒸餾壓縮模型,但增加了系統(tǒng)復(fù)雜性。研究團(tuán)隊(duì)指出,未來(lái)需探索更智能的專家發(fā)現(xiàn)方法,以及優(yōu)化專家協(xié)作策略,以進(jìn)一步提升效率。
A:指大型預(yù)訓(xùn)練AI模型的參數(shù)空間中,隱藏著大量具備專業(yè)能力的“任務(wù)專家”。這些專家各有所長(zhǎng),隨著模型規(guī)模擴(kuò)大,其密度和專業(yè)化程度增加,形成類似叢林的結(jié)構(gòu),隨機(jī)搜索即可找到有效解。
A:該算法分兩步:首先隨機(jī)生成數(shù)千個(gè)參數(shù)變化,篩選目標(biāo)任務(wù)上表現(xiàn)最佳的“專家”;然后讓這些專家組成團(tuán)隊(duì),通過(guò)集體投票解決問(wèn)題。其優(yōu)勢(shì)在于完全并行,無(wú)需復(fù)雜迭代,訓(xùn)練時(shí)間恒定。
A:目前不能完全替代。其效果高度依賴高質(zhì)量預(yù)訓(xùn)練,更適用于在預(yù)訓(xùn)練模型基礎(chǔ)上快速適應(yīng)新任務(wù)。對(duì)于從零訓(xùn)練或小模型,傳統(tǒng)方法仍是必要選擇。











