中國科學技術大學與阿里巴巴通義實驗室聯(lián)合開展的研究,為大語言模型訓練領域帶來了突破性進展。該研究聚焦于強化學習微調(diào)過程中模型輸出多樣性的變化規(guī)律,通過建立數(shù)學理論框架,揭示了模型在訓練中逐漸喪失創(chuàng)造性的深層機制,并提出了有效控制這一現(xiàn)象的創(chuàng)新方法。
在訓練大語言模型時,研究人員發(fā)現(xiàn)一個普遍現(xiàn)象:隨著訓練深入,模型會從最初給出多樣化答案逐漸轉(zhuǎn)變?yōu)橹惶峁┳畎踩⒆畛R姷幕卮稹_@種變化類似于學生從富有想象力轉(zhuǎn)變?yōu)橹粫痴b標準答案的過程。研究團隊通過系統(tǒng)分析發(fā)現(xiàn),模型在訓練中會不自覺地偏向產(chǎn)生高概率的"安全"詞匯,因為這類回答更容易獲得訓練獎勵。然而,這種傾向若不加控制,將導致模型失去探索新解決方案的能力,最終陷入創(chuàng)造力匱乏的困境。
為了精確描述這種創(chuàng)造性變化的過程,研究團隊構建了以"判別分數(shù)"為核心的理論體系。這個概念如同創(chuàng)造力指示器,能夠量化每個詞匯選擇對模型整體創(chuàng)造性的影響。通過數(shù)學推導,團隊發(fā)現(xiàn)了熵變化與判別分數(shù)之間的關鍵關系:熵的變化等于負的判別分數(shù)乘以更新強度。這一發(fā)現(xiàn)為理解模型訓練中的創(chuàng)造性波動提供了量化工具。
基于理論分析,研究團隊開發(fā)了兩種實用的熵控制方法。第一種是批次歸一化裁剪技術,該方法通過計算訓練批次中所有詞匯的判別分數(shù),識別并過濾那些會對創(chuàng)造性產(chǎn)生極端影響的異常詞匯。第二種方法則更為精細,它不僅考慮詞匯在單個批次中的表現(xiàn),還分析其在整個詞匯表中的相對位置,從而更準確地識別破壞創(chuàng)造性平衡的詞匯。這兩種方法就像為模型訓練安裝了調(diào)節(jié)閥,既能防止創(chuàng)造性過度喪失,又能提升模型的實際性能。
實驗驗證顯示,這些創(chuàng)新方法在多個領域都取得了顯著成效。在數(shù)學推理任務中,使用新方法訓練的模型在AIME24和AIME25等挑戰(zhàn)性數(shù)據(jù)集上的準確率分別提升了2.81%和0.93%。更重要的是,這些模型在解題過程中展現(xiàn)出更強的探索能力和多樣化的解題路徑,避免了傳統(tǒng)訓練方法導致的"全有或全無"的兩極分化表現(xiàn)模式。
研究團隊進一步將現(xiàn)有訓練方法歸類為三大類:裁剪機制、熵正則化和概率加權更新。通過理論分析,他們揭示了這些方法之所以有效的科學原理。例如,裁剪機制實際上是在防止低概率詞匯對熵產(chǎn)生過度影響,而熵正則化方法則是通過獎勵有助于保持創(chuàng)造性的詞匯選擇來維持模型多樣性。這種統(tǒng)一的理論視角不僅解釋了現(xiàn)有方法的共性,也為未來開發(fā)更高效的訓練策略提供了指導原則。
在數(shù)學推理任務的實驗中,新方法的優(yōu)勢得到了充分體現(xiàn)。傳統(tǒng)訓練方法會導致模型在簡單問題上表現(xiàn)優(yōu)異,但在中等難度問題上表現(xiàn)不佳。而使用熵控制方法訓練的模型則展現(xiàn)出更均衡的能力分布,能夠在不同難度層次的問題上都保持相對穩(wěn)定的表現(xiàn)。這種改進不僅體現(xiàn)在量化指標上,更反映在模型生成內(nèi)容的質(zhì)量上——它們會嘗試多種解題路徑,展現(xiàn)出更強的邏輯性和創(chuàng)造性。
該研究的理論框架具有廣泛的適用性。無論是在小型模型還是大型模型上,無論是處理數(shù)學問題還是編程任務,熵動力學的基本原理都保持一致。這表明可能存在支配AI學習過程的基礎性數(shù)學規(guī)律,就像熱力學定律支配物理世界的能量轉(zhuǎn)換一樣。研究團隊還指出,這一發(fā)現(xiàn)對AI安全和可控性研究具有重要意義,因為過度訓練可能導致模型在面對新型問題時缺乏必要的靈活性。
從實用角度來看,這項研究為AI訓練提供了立即可用的改進方案。與需要大量計算資源的架構創(chuàng)新相比,熵控制方法的計算開銷相對較小,可以輕松集成到現(xiàn)有訓練流程中。這使得工業(yè)界能夠快速應用這些技術,提升AI系統(tǒng)的性能和可靠性。更重要的是,這種基于理論分析的方法學為AI研究開辟了新的路徑,使研究人員能夠基于數(shù)學原理預測和設計改進方案,而非僅僅依賴經(jīng)驗試錯。
對于普通用戶而言,這項研究意味著未來的AI助手將變得更加智能和實用。它們不再局限于提供標準答案,而是能夠在安全性和創(chuàng)造性之間找到平衡點,在幫助學生解決復雜問題或協(xié)助程序員開發(fā)創(chuàng)新方案時展現(xiàn)出更出色的表現(xiàn)。該研究通過論文編號arXiv:2602.03392v1公開了完整的技術細節(jié),為感興趣的研究人員提供了深入探索的機會。









