滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

清華攜手UCSD團(tuán)隊(duì)創(chuàng)新AI訓(xùn)練法OREO：助力AI解鎖多步推理新技能

時(shí)間：2026-03-07 06:02:44 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

清華大學(xué)與加州大學(xué)圣地亞哥分校等頂尖高校聯(lián)合研發(fā)的全新AI訓(xùn)練方法OREO，近日在arXiv預(yù)印本平臺(tái)發(fā)布論文（編號(hào)arXiv:2412.16145v2），為復(fù)雜推理任務(wù)訓(xùn)練提供突破性解決方案。這項(xiàng)創(chuàng)新通過模擬人類解題思維，使AI系統(tǒng)能夠像學(xué)霸一樣逐步分析問題，在數(shù)學(xué)競賽級(jí)難題和智能體控制任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。

傳統(tǒng)訓(xùn)練方法DPO（直接偏好優(yōu)化）存在根本性缺陷：僅通過最終結(jié)果判斷對(duì)錯(cuò)，如同只看考試成績的老師，無法指出解題過程中的具體錯(cuò)誤。研究團(tuán)隊(duì)發(fā)現(xiàn)，這種模式在處理需要多步驟的數(shù)學(xué)題或機(jī)器人控制任務(wù)時(shí)，會(huì)導(dǎo)致AI無法理解錯(cuò)誤根源，更難以掌握關(guān)鍵推理步驟。例如在解方程時(shí)，DPO無法區(qū)分"設(shè)未知數(shù)"和"最終計(jì)算"哪個(gè)步驟更重要，而人類教師則會(huì)針對(duì)每個(gè)環(huán)節(jié)給予具體指導(dǎo)。

OREO的核心突破在于構(gòu)建"雙腦協(xié)作"系統(tǒng)：策略模型負(fù)責(zé)生成解題步驟，價(jià)值函數(shù)實(shí)時(shí)評(píng)估每個(gè)步驟的質(zhì)量。這種設(shè)計(jì)類似同時(shí)培養(yǎng)解題專家和資深評(píng)委，使AI既能推導(dǎo)答案，又能自我診斷推理過程。在MATH數(shù)學(xué)競賽數(shù)據(jù)集測試中，1.5億參數(shù)的OREO模型達(dá)到52.5%準(zhǔn)確率，遠(yuǎn)超同等規(guī)模傳統(tǒng)模型的42%水平，甚至逼近某些70億參數(shù)大模型的性能。

該方法的數(shù)學(xué)基礎(chǔ)源自軟貝爾曼方程理論，通過平衡當(dāng)前收益與未來潛在收益，實(shí)現(xiàn)更精準(zhǔn)的步驟價(jià)值評(píng)估。研究團(tuán)隊(duì)形象比喻：這就像圍棋高手下棋時(shí)，既要考慮當(dāng)前落子的局部優(yōu)勢(shì)，又要預(yù)判對(duì)整個(gè)棋局的影響。實(shí)驗(yàn)數(shù)據(jù)顯示，在GSM8K小學(xué)數(shù)學(xué)數(shù)據(jù)集上，OREO將準(zhǔn)確率從傳統(tǒng)方法的72.1%提升至77.3%，提升幅度達(dá)5.2個(gè)百分點(diǎn)。

智能體控制任務(wù)驗(yàn)證進(jìn)一步凸顯OREO優(yōu)勢(shì)。在模擬家庭環(huán)境的ALFWorld測試中，經(jīng)過OREO訓(xùn)練的虛擬機(jī)器人面對(duì)未見過的清潔任務(wù)時(shí)，成功率較傳統(tǒng)方法提升17.7%。這種泛化能力的提升，源于價(jià)值函數(shù)幫助AI掌握了"先整理桌面再清掃地面"等通用策略，而非機(jī)械記憶特定場景的操作步驟。

技術(shù)實(shí)現(xiàn)層面，研究團(tuán)隊(duì)開發(fā)了三種OREO變體：詞語級(jí)處理單個(gè)詞匯，步驟級(jí)分析完整推理單元，響應(yīng)級(jí)模擬傳統(tǒng)方法。實(shí)驗(yàn)表明，前兩種變體性能相當(dāng)且顯著優(yōu)于第三種，證明細(xì)粒度信用分配對(duì)提升推理能力至關(guān)重要。通過"停止梯度"技術(shù)防止兩個(gè)模型相互干擾，確保訓(xùn)練穩(wěn)定性。

價(jià)值函數(shù)的獨(dú)特價(jià)值不僅限于訓(xùn)練階段。在推理過程中，該函數(shù)可引導(dǎo)AI進(jìn)行"樹搜索"：面對(duì)復(fù)雜問題時(shí)，系統(tǒng)會(huì)生成多個(gè)解題路徑，通過價(jià)值函數(shù)評(píng)估選擇最優(yōu)方案。這種機(jī)制在MATH數(shù)據(jù)集測試中帶來17.9%的性能提升，相當(dāng)于每10道難題能多解對(duì)近2道。

與傳統(tǒng)方法依賴配對(duì)偏好數(shù)據(jù)不同，OREO可直接利用未標(biāo)注的推理軌跡進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)通過為每個(gè)問題生成10-16個(gè)回答，并根據(jù)最終答案正確性分配獎(jiǎng)勵(lì)，有效解決了復(fù)雜任務(wù)數(shù)據(jù)標(biāo)注難題。在70億參數(shù)大模型訓(xùn)練中，采用LoRA技術(shù)僅更新1/50參數(shù)，在保持性能的同時(shí)將計(jì)算資源消耗降低80%。

對(duì)比實(shí)驗(yàn)顯示，OREO在迭代訓(xùn)練中呈現(xiàn)持續(xù)改進(jìn)特性。經(jīng)過三輪訓(xùn)練，數(shù)學(xué)推理準(zhǔn)確率穩(wěn)步提升，而傳統(tǒng)拒絕采樣方法在第三輪即出現(xiàn)性能飽和。這種差異源于OREO能從失敗案例中提取價(jià)值信息，就像優(yōu)秀教師會(huì)分析錯(cuò)題原因，幫助學(xué)生建立更全面的知識(shí)體系。

顯式價(jià)值函數(shù)與隱式價(jià)值函數(shù)的對(duì)比研究揭示關(guān)鍵發(fā)現(xiàn)：專門訓(xùn)練的價(jià)值函數(shù)在評(píng)估推理步驟時(shí)，對(duì)錯(cuò)誤識(shí)別的敏感度是隱式方法的近3倍。這種優(yōu)勢(shì)在涉及多步代數(shù)運(yùn)算的MATH問題中尤為明顯，證明獨(dú)立的價(jià)值函數(shù)模塊能更精準(zhǔn)捕捉關(guān)鍵轉(zhuǎn)折點(diǎn)。

該方法已展現(xiàn)跨領(lǐng)域應(yīng)用潛力。在代碼生成任務(wù)中，價(jià)值函數(shù)可評(píng)估每個(gè)編程步驟的質(zhì)量；在科學(xué)推理場景下，能幫助AI規(guī)劃實(shí)驗(yàn)設(shè)計(jì)路徑；對(duì)話系統(tǒng)中則可優(yōu)化多輪交互策略。研究團(tuán)隊(duì)強(qiáng)調(diào)，OREO的核心思想不依賴特定模型架構(gòu)，具有廣泛的適應(yīng)性。

技術(shù)實(shí)現(xiàn)細(xì)節(jié)彰顯工程智慧：通過動(dòng)態(tài)內(nèi)存分配處理變長推理軌跡，采用梯度檢查點(diǎn)技術(shù)優(yōu)化內(nèi)存使用，設(shè)計(jì)自適應(yīng)序列長度處理機(jī)制。這些創(chuàng)新使OREO在保持理論優(yōu)勢(shì)的同時(shí)，具備實(shí)際工程應(yīng)用的可行性。完整技術(shù)細(xì)節(jié)可通過arXiv論文編號(hào)arXiv:2412.16145v2查詢。

03-07

上海AI服務(wù)備案達(dá)149款！2026全球開發(fā)者先鋒大會(huì)3月27日啟幕

03-07

張文宏兩會(huì)談AI醫(yī)療：輔助工具雖好，生命健康仍需人掌控

03-07

美國眾議院推進(jìn)兒童網(wǎng)絡(luò)安全立法，多項(xiàng)法案強(qiáng)化應(yīng)用年齡驗(yàn)證與家長管控

03-07

天樞智能閃耀MWC2026，長安汽車以極致安全鑄就中國智造新名片

03-07

李開復(fù)：OpenClaw成“一人公司”雛形 2026或迎企業(yè)多智能體上崗元年

03-07

6G賽道激戰(zhàn)正酣：英偉達(dá)跨界入局，華為高通愛立信競逐未來通信制高點(diǎn)

《每日經(jīng)濟(jì)新聞》記者（以下簡稱“每經(jīng)記者”）注意到，在本屆MWC上，華為、中興、愛立信、高通等全球通信產(chǎn)業(yè)鏈企業(yè)紛紛將目光聚焦于下一代移動(dòng)通信技術(shù)——6G，圍繞技術(shù)路徑、頻譜資源和生態(tài)合作展開新一輪布局，力圖…

03-07

魔法原子完成管理團(tuán)隊(duì)升級(jí)，任命7大核心負(fù)責(zé)人

03-07

商務(wù)部部長王文濤：我國網(wǎng)劇在全球市場營收占比達(dá)90%

03-07

社區(qū)食堂引入2臺(tái)6萬元的炒菜機(jī)器人油鹽配比精準(zhǔn)到克

03-07

全國政協(xié)委員石文先聚焦AI駕駛：完善安全監(jiān)管，助力汽車產(chǎn)業(yè)高質(zhì)量轉(zhuǎn)型

2026年全國兩會(huì)期間，全國政協(xié)委員、中國注冊(cè)會(huì)計(jì)師協(xié)會(huì)監(jiān)事長、湖北省新聯(lián)會(huì)會(huì)長、中審眾環(huán)會(huì)計(jì)師事務(wù)所首席合伙人石文先向九派新聞表示，今年他帶來了關(guān)于完善人工智能駕駛車輛安全監(jiān)管機(jī)制的建議。但與此同時(shí)，人工…

03-07

全國人大代表崔巖：以AI賦能文物司法推動(dòng)“深智”融入國家戰(zhàn)略

一件身處博物館中的文物，可以在手機(jī)上通過三維圖像清晰展示出每一個(gè)側(cè)面、每一處細(xì)節(jié)——這是崔巖主持研發(fā)的微米級(jí)三維數(shù)字化精細(xì)掃描技術(shù)在文物保護(hù)領(lǐng)域的應(yīng)用之一。崔巖表示，2026年全國兩會(huì)上，他計(jì)劃進(jìn)一步提出…

03-07

科斯拉預(yù)言AI將重塑未來：5歲孩童成年或無需工作，經(jīng)濟(jì)形態(tài)迎巨變

IT之家援引博文介紹，科斯拉指出，人工智能未來將具備勝任 80%工作崗位的能力，涵蓋從內(nèi)科醫(yī)生、放射科醫(yī)生到會(huì)計(jì)師和銷售員等各個(gè)領(lǐng)域，這種大規(guī)模的 AI 替代將直接把勞動(dòng)力成本降至零。勞動(dòng)力成本的驟降將…

03-07

從“碳基”到“硅基”：成衛(wèi)東與機(jī)器人“徒弟”共繪智能港口新未來

成衛(wèi)東始終相信，技術(shù)進(jìn)步會(huì)伴隨就業(yè)結(jié)構(gòu)的重構(gòu)、崗位的迭代，但重構(gòu)不等于消失，迭代也不是替代，“愿意學(xué)習(xí)、敢于轉(zhuǎn)型的人，將構(gòu)筑起人工智能時(shí)代堅(jiān)實(shí)的底座”。在他的建議下，天津港集團(tuán)20多名叉車、岸橋、裝載機(jī)等崗…

03-07

魔法原子官宣管理團(tuán)隊(duì)新布局核心成員就位吳長征去向未在公告中披露

公告稱，此次調(diào)整是公司面向具身智能產(chǎn)業(yè)加速規(guī)模化落地階段的一次組織升級(jí)，旨在進(jìn)一步強(qiáng)化核心領(lǐng)導(dǎo)團(tuán)隊(duì)，深化公司在具身智能技術(shù)研發(fā)、數(shù)據(jù)體系建設(shè)及全球商業(yè)化布局方面的戰(zhàn)略能力，為公司推動(dòng)具身智能大規(guī)模產(chǎn)業(yè)落地與…

03-07

點(diǎn)擊查看更多 +

全站最新

新款尊界S800攜896線激光雷達(dá)登場 72.8萬起售動(dòng)力續(xù)航亮點(diǎn)足

全新豐田蘭德酷路澤來襲！渦輪V6+10AT，選哪個(gè)版本更合適？

昊鉑A800上市：以技術(shù)智能破局開啟豪華轎車市場新征程

奧迪Q9最新諜照來襲：三排座旗艦SUV體態(tài)修長，或2027年正式上市

全新蘭博基尼Urus登場：V8燃油終章，全場景超跑座駕的極致浪漫

全新寶馬X8來襲：V8動(dòng)力邂逅后輪轉(zhuǎn)向，機(jī)械情懷與實(shí)用升級(jí)并存

熱門內(nèi)容

本欄最新

Anthropic再傳喜訊：Claude日新增用戶超百萬收入增長但成本高企

宋Ultra EV預(yù)售開啟：二代刀片電池加持，15.5萬起重塑B級(jí)純電SUV格局

零代碼也能輕松建站？AI工具讓網(wǎng)站搭建從技術(shù)活變簡單操作

黃仁勛“最后一投”背后：AI投資邏輯生變，行業(yè)邁向務(wù)實(shí)新階段

MWC2026現(xiàn)場：中興發(fā)布全球首款A(yù)I+Wi-Fi 8 CPE，移動(dòng)互聯(lián)終端戰(zhàn)略再升級(jí)

廣汽豐田鉑智7來襲！3月5日預(yù)售，鴻蒙座艙5助力合資純電智能化突圍

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

清華攜手UCSD團(tuán)隊(duì)創(chuàng)新AI訓(xùn)練法OREO：助力AI解鎖多步推理新技能