清華大學(xué)與加州大學(xué)圣地亞哥分校等頂尖高校聯(lián)合研發(fā)的全新AI訓(xùn)練方法OREO,近日在arXiv預(yù)印本平臺(tái)發(fā)布論文(編號(hào)arXiv:2412.16145v2),為復(fù)雜推理任務(wù)訓(xùn)練提供突破性解決方案。這項(xiàng)創(chuàng)新通過模擬人類解題思維,使AI系統(tǒng)能夠像學(xué)霸一樣逐步分析問題,在數(shù)學(xué)競賽級(jí)難題和智能體控制任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。
傳統(tǒng)訓(xùn)練方法DPO(直接偏好優(yōu)化)存在根本性缺陷:僅通過最終結(jié)果判斷對(duì)錯(cuò),如同只看考試成績的老師,無法指出解題過程中的具體錯(cuò)誤。研究團(tuán)隊(duì)發(fā)現(xiàn),這種模式在處理需要多步驟的數(shù)學(xué)題或機(jī)器人控制任務(wù)時(shí),會(huì)導(dǎo)致AI無法理解錯(cuò)誤根源,更難以掌握關(guān)鍵推理步驟。例如在解方程時(shí),DPO無法區(qū)分"設(shè)未知數(shù)"和"最終計(jì)算"哪個(gè)步驟更重要,而人類教師則會(huì)針對(duì)每個(gè)環(huán)節(jié)給予具體指導(dǎo)。
OREO的核心突破在于構(gòu)建"雙腦協(xié)作"系統(tǒng):策略模型負(fù)責(zé)生成解題步驟,價(jià)值函數(shù)實(shí)時(shí)評(píng)估每個(gè)步驟的質(zhì)量。這種設(shè)計(jì)類似同時(shí)培養(yǎng)解題專家和資深評(píng)委,使AI既能推導(dǎo)答案,又能自我診斷推理過程。在MATH數(shù)學(xué)競賽數(shù)據(jù)集測試中,1.5億參數(shù)的OREO模型達(dá)到52.5%準(zhǔn)確率,遠(yuǎn)超同等規(guī)模傳統(tǒng)模型的42%水平,甚至逼近某些70億參數(shù)大模型的性能。
該方法的數(shù)學(xué)基礎(chǔ)源自軟貝爾曼方程理論,通過平衡當(dāng)前收益與未來潛在收益,實(shí)現(xiàn)更精準(zhǔn)的步驟價(jià)值評(píng)估。研究團(tuán)隊(duì)形象比喻:這就像圍棋高手下棋時(shí),既要考慮當(dāng)前落子的局部優(yōu)勢(shì),又要預(yù)判對(duì)整個(gè)棋局的影響。實(shí)驗(yàn)數(shù)據(jù)顯示,在GSM8K小學(xué)數(shù)學(xué)數(shù)據(jù)集上,OREO將準(zhǔn)確率從傳統(tǒng)方法的72.1%提升至77.3%,提升幅度達(dá)5.2個(gè)百分點(diǎn)。
智能體控制任務(wù)驗(yàn)證進(jìn)一步凸顯OREO優(yōu)勢(shì)。在模擬家庭環(huán)境的ALFWorld測試中,經(jīng)過OREO訓(xùn)練的虛擬機(jī)器人面對(duì)未見過的清潔任務(wù)時(shí),成功率較傳統(tǒng)方法提升17.7%。這種泛化能力的提升,源于價(jià)值函數(shù)幫助AI掌握了"先整理桌面再清掃地面"等通用策略,而非機(jī)械記憶特定場景的操作步驟。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)開發(fā)了三種OREO變體:詞語級(jí)處理單個(gè)詞匯,步驟級(jí)分析完整推理單元,響應(yīng)級(jí)模擬傳統(tǒng)方法。實(shí)驗(yàn)表明,前兩種變體性能相當(dāng)且顯著優(yōu)于第三種,證明細(xì)粒度信用分配對(duì)提升推理能力至關(guān)重要。通過"停止梯度"技術(shù)防止兩個(gè)模型相互干擾,確保訓(xùn)練穩(wěn)定性。
價(jià)值函數(shù)的獨(dú)特價(jià)值不僅限于訓(xùn)練階段。在推理過程中,該函數(shù)可引導(dǎo)AI進(jìn)行"樹搜索":面對(duì)復(fù)雜問題時(shí),系統(tǒng)會(huì)生成多個(gè)解題路徑,通過價(jià)值函數(shù)評(píng)估選擇最優(yōu)方案。這種機(jī)制在MATH數(shù)據(jù)集測試中帶來17.9%的性能提升,相當(dāng)于每10道難題能多解對(duì)近2道。
與傳統(tǒng)方法依賴配對(duì)偏好數(shù)據(jù)不同,OREO可直接利用未標(biāo)注的推理軌跡進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)通過為每個(gè)問題生成10-16個(gè)回答,并根據(jù)最終答案正確性分配獎(jiǎng)勵(lì),有效解決了復(fù)雜任務(wù)數(shù)據(jù)標(biāo)注難題。在70億參數(shù)大模型訓(xùn)練中,采用LoRA技術(shù)僅更新1/50參數(shù),在保持性能的同時(shí)將計(jì)算資源消耗降低80%。
對(duì)比實(shí)驗(yàn)顯示,OREO在迭代訓(xùn)練中呈現(xiàn)持續(xù)改進(jìn)特性。經(jīng)過三輪訓(xùn)練,數(shù)學(xué)推理準(zhǔn)確率穩(wěn)步提升,而傳統(tǒng)拒絕采樣方法在第三輪即出現(xiàn)性能飽和。這種差異源于OREO能從失敗案例中提取價(jià)值信息,就像優(yōu)秀教師會(huì)分析錯(cuò)題原因,幫助學(xué)生建立更全面的知識(shí)體系。
顯式價(jià)值函數(shù)與隱式價(jià)值函數(shù)的對(duì)比研究揭示關(guān)鍵發(fā)現(xiàn):專門訓(xùn)練的價(jià)值函數(shù)在評(píng)估推理步驟時(shí),對(duì)錯(cuò)誤識(shí)別的敏感度是隱式方法的近3倍。這種優(yōu)勢(shì)在涉及多步代數(shù)運(yùn)算的MATH問題中尤為明顯,證明獨(dú)立的價(jià)值函數(shù)模塊能更精準(zhǔn)捕捉關(guān)鍵轉(zhuǎn)折點(diǎn)。
該方法已展現(xiàn)跨領(lǐng)域應(yīng)用潛力。在代碼生成任務(wù)中,價(jià)值函數(shù)可評(píng)估每個(gè)編程步驟的質(zhì)量;在科學(xué)推理場景下,能幫助AI規(guī)劃實(shí)驗(yàn)設(shè)計(jì)路徑;對(duì)話系統(tǒng)中則可優(yōu)化多輪交互策略。研究團(tuán)隊(duì)強(qiáng)調(diào),OREO的核心思想不依賴特定模型架構(gòu),具有廣泛的適應(yīng)性。
技術(shù)實(shí)現(xiàn)細(xì)節(jié)彰顯工程智慧:通過動(dòng)態(tài)內(nèi)存分配處理變長推理軌跡,采用梯度檢查點(diǎn)技術(shù)優(yōu)化內(nèi)存使用,設(shè)計(jì)自適應(yīng)序列長度處理機(jī)制。這些創(chuàng)新使OREO在保持理論優(yōu)勢(shì)的同時(shí),具備實(shí)際工程應(yīng)用的可行性。完整技術(shù)細(xì)節(jié)可通過arXiv論文編號(hào)arXiv:2412.16145v2查詢。











