麻省理工學(xué)院(MIT)攜手英偉達、蘇黎世聯(lián)邦理工學(xué)院等機構(gòu),共同推出了一項名為“馴服長尾”(TLT)的創(chuàng)新技術(shù),旨在顯著提升推理大語言模型(LLM)的訓(xùn)練效率。這一突破性成果,為人工智能領(lǐng)域的高效訓(xùn)練提供了新的解決方案。
推理大語言模型在解決復(fù)雜問題時展現(xiàn)出強大的能力,通過拆解步驟逐步推導(dǎo)答案。然而,在強化學(xué)習(xí)(RL)的訓(xùn)練過程中,這類模型對算力和能耗的需求極為龐大。研究團隊深入分析后發(fā)現(xiàn),在訓(xùn)練過程中,生成多個備選答案的“推演”階段占據(jù)了總訓(xùn)練時間的85%。由于不同處理器處理任務(wù)的速度不同,完成較快的處理器往往需要等待其他處理器處理長文本任務(wù),導(dǎo)致大量時間被浪費,形成了嚴(yán)重的效率瓶頸。
為了解決這一問題,MIT的研究人員與合作伙伴共同提出了“馴服長尾(TLT)”自適應(yīng)解決方案。該方案的核心在于引入“投機解碼”技術(shù),即利用一個較小的“草稿模型”快速預(yù)測大模型的未來輸出,再由大模型對這些預(yù)測進行批量驗證。這種方式避免了逐個順序生成輸出的傳統(tǒng)模式,從而大幅加快了處理速度。
在傳統(tǒng)的投機解碼方法中,草稿模型通常只訓(xùn)練一次并保持靜態(tài)。然而,在強化學(xué)習(xí)過程中,主模型需要更新數(shù)千次,靜態(tài)草稿模型很快就會失效,無法與主模型保持同步。為了克服這一挑戰(zhàn),TLT系統(tǒng)引入了“自適應(yīng)草稿訓(xùn)練器”。當(dāng)部分處理器完成短查詢?nèi)蝿?wù)后進入閑置狀態(tài)時,系統(tǒng)會立即調(diào)度它們實時訓(xùn)練草稿模型,確保草稿模型始終與目標(biāo)大模型保持高度同步。
TLT系統(tǒng)還配備了“自適應(yīng)推演引擎”,能夠根據(jù)工作負(fù)載特征自動調(diào)整解碼策略,確保在不增加額外算力開銷的情況下,實現(xiàn)草稿模型與目標(biāo)大模型的高效協(xié)同。這一創(chuàng)新設(shè)計使得訓(xùn)練過程更加靈活和高效。
基于真實世界數(shù)據(jù)集的測試結(jié)果顯示,TLT技術(shù)在保持模型準(zhǔn)確率完全無損的前提下,將多個推理大語言模型的訓(xùn)練速度提升了70%至210%。這一成果不僅顯著縮短了訓(xùn)練時間,還降低了能耗和成本,為人工智能的大規(guī)模應(yīng)用提供了有力支持。
值得一提的是,訓(xùn)練過程中得到的輕量級草稿模型還可以作為副產(chǎn)品直接用于后期的高效部署。這一特性進一步提升了TLT技術(shù)的實用價值,為人工智能模型的優(yōu)化和部署提供了新的思路。研究團隊計劃將該技術(shù)融入更多訓(xùn)練與推理框架中,以進一步降低AI開發(fā)成本并提升能源利用率。










