麻省理工學院攜手英偉達、蘇黎世聯邦理工學院等機構,共同研發出一種名為“馴服長尾”(TLT)的創新技術,該技術可顯著提升推理大語言模型(LLM)的訓練效率,為人工智能領域帶來突破性進展。
在強化學習訓練過程中,推理大模型雖擅長通過分步拆解解決復雜問題,但算力與能耗消耗巨大。研究團隊發現,訓練過程中生成多個備選答案的“推演”階段耗時最長,占比高達85%。由于不同處理器處理任務的速度存在差異,部分處理器完成短任務后被迫閑置,等待其他處理器完成長文本任務,導致整體訓練效率嚴重受限。
為突破這一瓶頸,研究團隊提出“馴服長尾”自適應解決方案。該方案的核心是引入“投機解碼”技術,通過訓練一個較小的“草稿模型”快速預測大模型的未來輸出,再由大模型批量驗證這些預測結果。這種并行處理方式避免了逐個順序生成輸出的傳統模式,大幅加快了訓練進程。
傳統投機解碼技術中,草稿模型通常僅訓練一次且保持靜態。然而在強化學習場景下,主模型需經歷數千次更新,靜態草稿模型很快會與主模型脫節,導致預測失效。針對這一問題,TLT系統創新性地設計了“自適應草稿訓練器”:當部分處理器完成短查詢任務后,系統立即調度這些閑置資源實時更新草稿模型,確保其始終與主模型保持同步。
與此同時,“自適應推演引擎”會根據當前工作負載特征動態調整解碼策略。這一機制既保證了草稿模型與目標大模型的高度一致性,又避免了額外算力開銷,實現了效率與成本的雙重優化。
基于真實數據集的測試顯示,TLT技術在完全不損失模型準確率的前提下,將多個推理大語言模型的訓練速度提升了70%至210%。這一成果意味著,在相同時間內可完成更多輪次訓練,或以更短時間達到同等訓練效果。
值得注意的是,訓練過程中生成的輕量級草稿模型可作為獨立副產品直接應用于后續部署。這種“訓練即部署”的特性進一步拓展了技術的應用價值,為降低AI開發成本提供了新思路。目前,研究團隊正探索將該技術整合至更多訓練與推理框架中,以推動人工智能技術的規模化應用與可持續發展。











