岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

清華攜手UCSD團(tuán)隊(duì)創(chuàng)新AI訓(xùn)練法OREO:助力AI解鎖多步推理新技能

   時(shí)間:2026-03-07 06:02:44 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

清華大學(xué)與加州大學(xué)圣地亞哥分校等頂尖高校聯(lián)合研發(fā)的全新AI訓(xùn)練方法OREO,近日在arXiv預(yù)印本平臺(tái)發(fā)布論文(編號(hào)arXiv:2412.16145v2),為復(fù)雜推理任務(wù)訓(xùn)練提供突破性解決方案。這項(xiàng)創(chuàng)新通過模擬人類解題思維,使AI系統(tǒng)能夠像學(xué)霸一樣逐步分析問題,在數(shù)學(xué)競賽級(jí)難題和智能體控制任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。

傳統(tǒng)訓(xùn)練方法DPO(直接偏好優(yōu)化)存在根本性缺陷:僅通過最終結(jié)果判斷對(duì)錯(cuò),如同只看考試成績的老師,無法指出解題過程中的具體錯(cuò)誤。研究團(tuán)隊(duì)發(fā)現(xiàn),這種模式在處理需要多步驟的數(shù)學(xué)題或機(jī)器人控制任務(wù)時(shí),會(huì)導(dǎo)致AI無法理解錯(cuò)誤根源,更難以掌握關(guān)鍵推理步驟。例如在解方程時(shí),DPO無法區(qū)分"設(shè)未知數(shù)"和"最終計(jì)算"哪個(gè)步驟更重要,而人類教師則會(huì)針對(duì)每個(gè)環(huán)節(jié)給予具體指導(dǎo)。

OREO的核心突破在于構(gòu)建"雙腦協(xié)作"系統(tǒng):策略模型負(fù)責(zé)生成解題步驟,價(jià)值函數(shù)實(shí)時(shí)評(píng)估每個(gè)步驟的質(zhì)量。這種設(shè)計(jì)類似同時(shí)培養(yǎng)解題專家和資深評(píng)委,使AI既能推導(dǎo)答案,又能自我診斷推理過程。在MATH數(shù)學(xué)競賽數(shù)據(jù)集測試中,1.5億參數(shù)的OREO模型達(dá)到52.5%準(zhǔn)確率,遠(yuǎn)超同等規(guī)模傳統(tǒng)模型的42%水平,甚至逼近某些70億參數(shù)大模型的性能。

該方法的數(shù)學(xué)基礎(chǔ)源自軟貝爾曼方程理論,通過平衡當(dāng)前收益與未來潛在收益,實(shí)現(xiàn)更精準(zhǔn)的步驟價(jià)值評(píng)估。研究團(tuán)隊(duì)形象比喻:這就像圍棋高手下棋時(shí),既要考慮當(dāng)前落子的局部優(yōu)勢(shì),又要預(yù)判對(duì)整個(gè)棋局的影響。實(shí)驗(yàn)數(shù)據(jù)顯示,在GSM8K小學(xué)數(shù)學(xué)數(shù)據(jù)集上,OREO將準(zhǔn)確率從傳統(tǒng)方法的72.1%提升至77.3%,提升幅度達(dá)5.2個(gè)百分點(diǎn)。

智能體控制任務(wù)驗(yàn)證進(jìn)一步凸顯OREO優(yōu)勢(shì)。在模擬家庭環(huán)境的ALFWorld測試中,經(jīng)過OREO訓(xùn)練的虛擬機(jī)器人面對(duì)未見過的清潔任務(wù)時(shí),成功率較傳統(tǒng)方法提升17.7%。這種泛化能力的提升,源于價(jià)值函數(shù)幫助AI掌握了"先整理桌面再清掃地面"等通用策略,而非機(jī)械記憶特定場景的操作步驟。

技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)開發(fā)了三種OREO變體:詞語級(jí)處理單個(gè)詞匯,步驟級(jí)分析完整推理單元,響應(yīng)級(jí)模擬傳統(tǒng)方法。實(shí)驗(yàn)表明,前兩種變體性能相當(dāng)且顯著優(yōu)于第三種,證明細(xì)粒度信用分配對(duì)提升推理能力至關(guān)重要。通過"停止梯度"技術(shù)防止兩個(gè)模型相互干擾,確保訓(xùn)練穩(wěn)定性。

價(jià)值函數(shù)的獨(dú)特價(jià)值不僅限于訓(xùn)練階段。在推理過程中,該函數(shù)可引導(dǎo)AI進(jìn)行"樹搜索":面對(duì)復(fù)雜問題時(shí),系統(tǒng)會(huì)生成多個(gè)解題路徑,通過價(jià)值函數(shù)評(píng)估選擇最優(yōu)方案。這種機(jī)制在MATH數(shù)據(jù)集測試中帶來17.9%的性能提升,相當(dāng)于每10道難題能多解對(duì)近2道。

與傳統(tǒng)方法依賴配對(duì)偏好數(shù)據(jù)不同,OREO可直接利用未標(biāo)注的推理軌跡進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)通過為每個(gè)問題生成10-16個(gè)回答,并根據(jù)最終答案正確性分配獎(jiǎng)勵(lì),有效解決了復(fù)雜任務(wù)數(shù)據(jù)標(biāo)注難題。在70億參數(shù)大模型訓(xùn)練中,采用LoRA技術(shù)僅更新1/50參數(shù),在保持性能的同時(shí)將計(jì)算資源消耗降低80%。

對(duì)比實(shí)驗(yàn)顯示,OREO在迭代訓(xùn)練中呈現(xiàn)持續(xù)改進(jìn)特性。經(jīng)過三輪訓(xùn)練,數(shù)學(xué)推理準(zhǔn)確率穩(wěn)步提升,而傳統(tǒng)拒絕采樣方法在第三輪即出現(xiàn)性能飽和。這種差異源于OREO能從失敗案例中提取價(jià)值信息,就像優(yōu)秀教師會(huì)分析錯(cuò)題原因,幫助學(xué)生建立更全面的知識(shí)體系。

顯式價(jià)值函數(shù)與隱式價(jià)值函數(shù)的對(duì)比研究揭示關(guān)鍵發(fā)現(xiàn):專門訓(xùn)練的價(jià)值函數(shù)在評(píng)估推理步驟時(shí),對(duì)錯(cuò)誤識(shí)別的敏感度是隱式方法的近3倍。這種優(yōu)勢(shì)在涉及多步代數(shù)運(yùn)算的MATH問題中尤為明顯,證明獨(dú)立的價(jià)值函數(shù)模塊能更精準(zhǔn)捕捉關(guān)鍵轉(zhuǎn)折點(diǎn)。

該方法已展現(xiàn)跨領(lǐng)域應(yīng)用潛力。在代碼生成任務(wù)中,價(jià)值函數(shù)可評(píng)估每個(gè)編程步驟的質(zhì)量;在科學(xué)推理場景下,能幫助AI規(guī)劃實(shí)驗(yàn)設(shè)計(jì)路徑;對(duì)話系統(tǒng)中則可優(yōu)化多輪交互策略。研究團(tuán)隊(duì)強(qiáng)調(diào),OREO的核心思想不依賴特定模型架構(gòu),具有廣泛的適應(yīng)性。

技術(shù)實(shí)現(xiàn)細(xì)節(jié)彰顯工程智慧:通過動(dòng)態(tài)內(nèi)存分配處理變長推理軌跡,采用梯度檢查點(diǎn)技術(shù)優(yōu)化內(nèi)存使用,設(shè)計(jì)自適應(yīng)序列長度處理機(jī)制。這些創(chuàng)新使OREO在保持理論優(yōu)勢(shì)的同時(shí),具備實(shí)際工程應(yīng)用的可行性。完整技術(shù)細(xì)節(jié)可通過arXiv論文編號(hào)arXiv:2412.16145v2查詢。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 日本一区二区高清视频 | 国产高清久久久 | 国产一区在线观看免费 | 亚洲成av人影院 | 久久久国产一区二区 | 亚洲二区av | 视频在线观看一区 | 国产a级片免费看 | 欧美黄色aaa | 91最新国产 | 伊人伊人 | 国产精品久久久国产盗摄 | 国产精品第72页 | 99久久九九| 日韩五码在线 | www97| 亚洲国产精品久久久久久久 | 国产视频在线一区二区 | 欧美一级特黄高清视频 | 国产无遮挡 | 成人激情在线视频 | 2019国产在线 | 成人欧美在线 | 日韩国产免费 | 久久久一级片 | wwwav视频| 在线免费观看成年人视频 | 欧美午夜精品久久久久免费视 | 四虎影视在线播放 | 影音先锋男人资源网站 | 中文字幕在线观看2018 | 第一页国产 | 青青草激情视频 | 久久精品国产一区二区三区 | 亚洲少妇一区 | 日韩高清毛片 | 99热国产在线 | 黄色xxxxx | 日本中文字幕在线 | 女人毛片| 在线中文字幕播放 |