滾動資訊

當前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

中科大與阿里通義實驗室：解碼大語言模型訓練的熵變化規(guī)律與優(yōu)化路徑

時間：2026-02-10 03:18:18 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

中國科學技術大學與阿里巴巴通義實驗室聯(lián)合開展的研究，為大語言模型訓練領域帶來了突破性進展。該研究聚焦于強化學習微調(diào)過程中模型輸出多樣性的變化規(guī)律，通過建立數(shù)學理論框架，揭示了模型在訓練中逐漸喪失創(chuàng)造性的深層機制，并提出了有效控制這一現(xiàn)象的創(chuàng)新方法。

在訓練大語言模型時，研究人員發(fā)現(xiàn)一個普遍現(xiàn)象：隨著訓練深入，模型會從最初給出多樣化答案逐漸轉(zhuǎn)變?yōu)橹惶峁┳畎踩⒆畛Ｒ姷幕卮稹＿@種變化類似于學生從富有想象力轉(zhuǎn)變?yōu)橹粫痴b標準答案的過程。研究團隊通過系統(tǒng)分析發(fā)現(xiàn)，模型在訓練中會不自覺地偏向產(chǎn)生高概率的"安全"詞匯，因為這類回答更容易獲得訓練獎勵。然而，這種傾向若不加控制，將導致模型失去探索新解決方案的能力，最終陷入創(chuàng)造力匱乏的困境。

為了精確描述這種創(chuàng)造性變化的過程，研究團隊構建了以"判別分數(shù)"為核心的理論體系。這個概念如同創(chuàng)造力指示器，能夠量化每個詞匯選擇對模型整體創(chuàng)造性的影響。通過數(shù)學推導，團隊發(fā)現(xiàn)了熵變化與判別分數(shù)之間的關鍵關系：熵的變化等于負的判別分數(shù)乘以更新強度。這一發(fā)現(xiàn)為理解模型訓練中的創(chuàng)造性波動提供了量化工具。

基于理論分析，研究團隊開發(fā)了兩種實用的熵控制方法。第一種是批次歸一化裁剪技術，該方法通過計算訓練批次中所有詞匯的判別分數(shù)，識別并過濾那些會對創(chuàng)造性產(chǎn)生極端影響的異常詞匯。第二種方法則更為精細，它不僅考慮詞匯在單個批次中的表現(xiàn)，還分析其在整個詞匯表中的相對位置，從而更準確地識別破壞創(chuàng)造性平衡的詞匯。這兩種方法就像為模型訓練安裝了調(diào)節(jié)閥，既能防止創(chuàng)造性過度喪失，又能提升模型的實際性能。

實驗驗證顯示，這些創(chuàng)新方法在多個領域都取得了顯著成效。在數(shù)學推理任務中，使用新方法訓練的模型在AIME24和AIME25等挑戰(zhàn)性數(shù)據(jù)集上的準確率分別提升了2.81%和0.93%。更重要的是，這些模型在解題過程中展現(xiàn)出更強的探索能力和多樣化的解題路徑，避免了傳統(tǒng)訓練方法導致的"全有或全無"的兩極分化表現(xiàn)模式。

研究團隊進一步將現(xiàn)有訓練方法歸類為三大類：裁剪機制、熵正則化和概率加權更新。通過理論分析，他們揭示了這些方法之所以有效的科學原理。例如，裁剪機制實際上是在防止低概率詞匯對熵產(chǎn)生過度影響，而熵正則化方法則是通過獎勵有助于保持創(chuàng)造性的詞匯選擇來維持模型多樣性。這種統(tǒng)一的理論視角不僅解釋了現(xiàn)有方法的共性，也為未來開發(fā)更高效的訓練策略提供了指導原則。

在數(shù)學推理任務的實驗中，新方法的優(yōu)勢得到了充分體現(xiàn)。傳統(tǒng)訓練方法會導致模型在簡單問題上表現(xiàn)優(yōu)異，但在中等難度問題上表現(xiàn)不佳。而使用熵控制方法訓練的模型則展現(xiàn)出更均衡的能力分布，能夠在不同難度層次的問題上都保持相對穩(wěn)定的表現(xiàn)。這種改進不僅體現(xiàn)在量化指標上，更反映在模型生成內(nèi)容的質(zhì)量上——它們會嘗試多種解題路徑，展現(xiàn)出更強的邏輯性和創(chuàng)造性。

該研究的理論框架具有廣泛的適用性。無論是在小型模型還是大型模型上，無論是處理數(shù)學問題還是編程任務，熵動力學的基本原理都保持一致。這表明可能存在支配AI學習過程的基礎性數(shù)學規(guī)律，就像熱力學定律支配物理世界的能量轉(zhuǎn)換一樣。研究團隊還指出，這一發(fā)現(xiàn)對AI安全和可控性研究具有重要意義，因為過度訓練可能導致模型在面對新型問題時缺乏必要的靈活性。

從實用角度來看，這項研究為AI訓練提供了立即可用的改進方案。與需要大量計算資源的架構創(chuàng)新相比，熵控制方法的計算開銷相對較小，可以輕松集成到現(xiàn)有訓練流程中。這使得工業(yè)界能夠快速應用這些技術，提升AI系統(tǒng)的性能和可靠性。更重要的是，這種基于理論分析的方法學為AI研究開辟了新的路徑，使研究人員能夠基于數(shù)學原理預測和設計改進方案，而非僅僅依賴經(jīng)驗試錯。

對于普通用戶而言，這項研究意味著未來的AI助手將變得更加智能和實用。它們不再局限于提供標準答案，而是能夠在安全性和創(chuàng)造性之間找到平衡點，在幫助學生解決復雜問題或協(xié)助程序員開發(fā)創(chuàng)新方案時展現(xiàn)出更出色的表現(xiàn)。該研究通過論文編號arXiv:2602.03392v1公開了完整的技術細節(jié)，為感興趣的研究人員提供了深入探索的機會。

02-10

Seedance2.0引熱議：技術狂飆下，AI視頻生成邊界與倫理待明晰

02-10

香港科技大學與字節(jié)跳動聯(lián)合研究：小模型“授業(yè)”大模型開啟AI訓練新路徑

02-10

OpenAI開啟ChatGPT廣告測試回應Anthropic嘲諷稱廣告投放絕非其所述方式

02-10

國產(chǎn)“小龍”發(fā)力AI Coding賽道，Pony Alpha與Kimi 2.5能否引領新潮流？

02-10

NASA與SpaceX調(diào)整計劃：Crew-12任務因天氣推遲，獵鷹9號已獲準復飛

02-10

馬斯克：SpaceX重心轉(zhuǎn)向月球建城，火星計劃同步推進未來可期

02-10

馬斯克宣布SpaceX重心轉(zhuǎn)向月球：10年內(nèi)建自我擴張城市，火星計劃同步推進

02-10

親民定位引關注！iPhone 17e延續(xù)劉海屏，或維持4499元起售價

影像部分，根據(jù)爆料，預計將保留前代的配置，依舊是4800萬像素主攝，但得益于處理器的提升，在影像計算能力上也會有所升級，因此最終的成像效果相信會有一定的優(yōu)化。當然，作為一款親民機型，最讓消費者關注的，還得…

02-10

神秘模型Pony Alpha實測：展現(xiàn)Opus級實力，架構師級編程思維驚艷登場

在完成這三組案例之后，可以明顯感覺到：Pony Alpha在“能跑、好看、好理解”這一層面已經(jīng)打造目前主流模型的水平線上方了。我們給Pony Alpha發(fā)送了如下提示詞，基本上就是要求它在盡可能確保系統(tǒng)可…

02-10

小紅書技術團隊研發(fā)AI新突破：OpenStoryline對話剪輯，未來或開源共享

IT之家 2 月 9 日消息，據(jù)《科創(chuàng)板日報》今天報道，小紅書技術團隊正在研發(fā)視頻剪輯類 AI 產(chǎn)品 OpenStoryline，版本號1.0.0。據(jù)介紹，這款產(chǎn)品定位“AI 智能體”，最大的亮點就是“對…

02-10

博主爆料：某廠6.3小屏新機或配雙2億影像，小米新品可能性大引關注

IT之家 2 月 9 日消息，博主 @數(shù)碼閑聊站今日爆料，某廠下一代 6.3 小屏也在評估雙 2億影像。結合該博主此前的爆料習慣，預計為小米旗下新品。目前小米在售的 6.3 英寸小屏機有小米 17和小米…

02-10

字節(jié)跳動Seedance 2.0：AI視頻生成新突破，重塑行業(yè)未來挑戰(zhàn)并存

Seedance2.0帶來的變革遠不止于生成一段視頻這么簡單，以它為首的AI視頻生成模型正在深層影響傳統(tǒng)影視工作。技術是一把雙刃劍，Seedance 2.0在展示中國AI實力的同時，也迫使我們思考如何建立…

02-10

iPhone17e延續(xù)經(jīng)典劉海屏設計性能升級或成實用派蘋果用戶新寵

作為2026年蘋果發(fā)布的首款機型，它不僅是目前產(chǎn)品線中最親民的選擇，也將成為今年價格門檻最低的iPhone。iPhone17e將換裝性能更強悍的A19處理器，這不僅提升了系統(tǒng)的運行流暢度，也為未來更復雜的AI…

02-10

華為HiCar鴻蒙版App迎6.0.96.16嘗鮮升級新增多項實用功能提升駕駛體驗

IT之家 2 月 9 日消息，華為 HiCar 今日在鴻蒙 HarmonyOS 6 系統(tǒng)的應用市場（App Gallery）推出6.0.96.16 (60096016) 版本嘗鮮升級。 4.新增網(wǎng)易云音樂卡…

02-10

點擊查看更多 +

全站最新

華為上汽聯(lián)手打造尚界Z7雪地冬測引爭議官方回應澄清AI造假疑云

Seedance2.0突破AI視頻生成瓶頸，成本驟降效率飆升，多場景加速落地

字節(jié)Seedance 2.0：一分鐘成片，AI視頻創(chuàng)作迎變革還是迎挑戰(zhàn)？

TWS耳機盛行下有線耳機仍具優(yōu)勢！西圣HiFi 1百元價位的實力之選

當算力競賽退潮，萬億增量的錨點正轉(zhuǎn)向AI"深水區(qū)"

"高市行情"殺回來了？日股狂飆，日元危機四伏

熱門內(nèi)容

本欄最新

Seedance2.0突破AI視頻生成瓶頸，成本驟降效率飆升，多場景加速落地

字節(jié)Seedance 2.0：一分鐘成片，AI視頻創(chuàng)作迎變革還是迎挑戰(zhàn)？

小米SU7應用2200MPa超強鋼：以行業(yè)最高強度解鎖安全與輕量化新路徑

小米YU7 GT工信部亮相！黑化設計配大尺寸寬胎，高性能SUV新選擇來了

小米汽車“無序開門”專利落地，2025年銷量飆升，2026年劍指55萬新目標

雷軍小年夜直播送福利：3臺合金車模待抽取，SU7事件或迎官方回應

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

中科大與阿里通義實驗室：解碼大語言模型訓練的熵變化規(guī)律與優(yōu)化路徑