滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

香港科大團(tuán)隊(duì)新突破：形式化驗(yàn)證賦能AI，推理能力邁向新高度

時(shí)間：2026-02-04 03:57:17 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

人工智能在復(fù)雜推理任務(wù)中的表現(xiàn)長(zhǎng)期受制于邏輯漏洞問(wèn)題——即便最終答案正確，中間步驟也可能漏洞百出。香港科技大學(xué)、上海人工智能實(shí)驗(yàn)室、浙江大學(xué)及香港浸會(huì)大學(xué)聯(lián)合團(tuán)隊(duì)提出突破性解決方案，通過(guò)引入形式化驗(yàn)證系統(tǒng)，讓語(yǔ)言模型在推理過(guò)程中接受"實(shí)時(shí)邏輯檢查"，顯著提升了推理嚴(yán)謹(jǐn)性。相關(guān)研究論文已發(fā)表于學(xué)術(shù)平臺(tái)，其創(chuàng)新框架為AI推理能力升級(jí)開(kāi)辟了新路徑。

實(shí)驗(yàn)數(shù)據(jù)顯示，當(dāng)前主流模型在處理推理任務(wù)時(shí)存在嚴(yán)重隱患：當(dāng)答案正確時(shí)，仍有39.3%的推理步驟存在形式化錯(cuò)誤；答案錯(cuò)誤時(shí)，錯(cuò)誤比例更高達(dá)52.4%。這暴露出模型依賴(lài)模式匹配而非真正理解的本質(zhì)缺陷。研究團(tuán)隊(duì)構(gòu)建的雙階段訓(xùn)練體系，通過(guò)"監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)"的組合策略，將形式化驗(yàn)證深度嵌入推理全流程。在監(jiān)督學(xué)習(xí)階段，團(tuán)隊(duì)采用教師模型生成多版本推理鏈，并利用Z3求解器等工具將自然語(yǔ)言轉(zhuǎn)換為可驗(yàn)證的邏輯代碼，通過(guò)執(zhí)行驗(yàn)證確保三者一致性；強(qiáng)化學(xué)習(xí)階段則引入多層次獎(jiǎng)勵(lì)機(jī)制，對(duì)邏輯矛盾、代碼錯(cuò)誤等情況實(shí)施動(dòng)態(tài)懲罰。

該框架在三大類(lèi)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。測(cè)試集涵蓋邏輯推理基準(zhǔn)KOR-Bench、奧林匹克數(shù)學(xué)競(jìng)賽題庫(kù)AIME 2024及研究生級(jí)多學(xué)科問(wèn)題GPQA-Diamond等。實(shí)驗(yàn)表明，70億參數(shù)模型準(zhǔn)確率平均提升10.4%，140億參數(shù)模型提升14.2%。在AIME 2024競(jìng)賽題中，140億模型準(zhǔn)確率從3.6%躍升至30.2%，MATH-500題庫(kù)準(zhǔn)確率達(dá)81.4%，均創(chuàng)下新紀(jì)錄。更關(guān)鍵的是，模型對(duì)符號(hào)邏輯庫(kù)的使用率從42.5%提升至62.5%，標(biāo)志著推理模式從數(shù)值計(jì)算向抽象演繹的根本轉(zhuǎn)變。

研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)證實(shí)，形式化驗(yàn)證是性能提升的核心驅(qū)動(dòng)力。僅監(jiān)督學(xué)習(xí)階段就能將基礎(chǔ)模型準(zhǔn)確率從30%提升至48%，強(qiáng)化學(xué)習(xí)進(jìn)一步推高至51%。但初期嚴(yán)格驗(yàn)證策略導(dǎo)致新問(wèn)題：模型為滿(mǎn)足驗(yàn)證要求，常對(duì)簡(jiǎn)單算術(shù)問(wèn)題編寫(xiě)復(fù)雜求解代碼。例如計(jì)算最小完全立方數(shù)時(shí)，模型會(huì)構(gòu)建約束程序而非直接枚舉。為此團(tuán)隊(duì)開(kāi)發(fā)"靈活驗(yàn)證"機(jī)制，允許模型在計(jì)算階段采用直接方法，僅在邏輯推理環(huán)節(jié)啟用形式化驗(yàn)證，成功平衡效率與嚴(yán)謹(jǐn)性。

該研究在數(shù)據(jù)效率方面表現(xiàn)突出。盡管訓(xùn)練流程復(fù)雜，但僅使用約1.7萬(wàn)個(gè)樣本即達(dá)到理想效果，遠(yuǎn)少于同類(lèi)方法所需數(shù)據(jù)量。這得益于形式化驗(yàn)證提供的高密度監(jiān)督信號(hào)——每個(gè)訓(xùn)練樣本不僅包含答案正確性，更提供具體邏輯反饋，使模型能快速掌握深層推理規(guī)律。不過(guò)研究也指出方法局限：形式化驗(yàn)證使訓(xùn)練時(shí)間增加一倍，且自然語(yǔ)言到邏輯規(guī)范的轉(zhuǎn)換在開(kāi)放式問(wèn)題中仍面臨挑戰(zhàn)。

這項(xiàng)突破為AI安全應(yīng)用提供了新范式。在醫(yī)療診斷、金融決策等高風(fēng)險(xiǎn)領(lǐng)域，系統(tǒng)不僅需要正確答案，更需可驗(yàn)證的推理過(guò)程。研究團(tuán)隊(duì)通過(guò)將神經(jīng)網(wǎng)絡(luò)的模糊處理能力與符號(hào)系統(tǒng)的嚴(yán)謹(jǐn)驗(yàn)證相結(jié)合，有效解決了兩者間的兼容難題。目前團(tuán)隊(duì)已公開(kāi)實(shí)現(xiàn)細(xì)節(jié)與代碼提示詞，并承諾開(kāi)源數(shù)據(jù)集和訓(xùn)練模型，為學(xué)術(shù)界提供可復(fù)現(xiàn)的研究基礎(chǔ)。

02-22

李子柒治好了我的AI焦慮癥

02-22

AI時(shí)代的認(rèn)知裂谷與K型分化：你是那1%嗎？

02-22

6G核心技術(shù)突破：三星聯(lián)合KT完成7GHz頻段X-MIMO技術(shù)驗(yàn)證

02-22

奧爾特曼駁斥ChatGPT耗水相關(guān)謠言：完全不符合事實(shí)

02-22

數(shù)據(jù)顯示ChatGPT消費(fèi)版更多用于個(gè)人任務(wù)，較少用于工作

02-22

ChatGPT消費(fèi)版用途轉(zhuǎn)向：個(gè)人任務(wù)占比攀升，工作應(yīng)用漸少

02-22

宇樹(shù)科技王興興談機(jī)器人發(fā)展：技術(shù)進(jìn)步快，大規(guī)模應(yīng)用或需3至10年

對(duì)話(huà)中，對(duì)于“現(xiàn)在機(jī)器人發(fā)展的技術(shù)階段是否就如一個(gè)10歲的孩子甚至更小？”2月17日，宇樹(shù)科技創(chuàng)始人王興興發(fā)微博稱(chēng)：“有朋友問(wèn)春晚機(jī)器人進(jìn)化速度有多快，我想說(shuō)這取決于大家對(duì)AI的想象力。此前，春晚《武B…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實(shí)，能效或已追平人類(lèi)

02-22

AI浪潮中上海老人緊跟步伐：智能設(shè)備助力，生活便捷又多彩

02-22

哈薩克斯坦宇通工廠：新春堅(jiān)守忙生產(chǎn) 新能源客車(chē)駛下線

02-22

李子柒：以經(jīng)歷為引，用非遺溫情治愈這個(gè)時(shí)代的AI焦慮

02-22

AI浪潮下的認(rèn)知分野：站在進(jìn)化岔路口，你選擇成為1%還是99%？

02-22

OpenAI CEO奧爾特曼回應(yīng)AI環(huán)境爭(zhēng)議：耗水謠言不實(shí) 能源擔(dān)憂(yōu)應(yīng)聚焦總量

他還表示，人們擔(dān)憂(yōu)人工智能的能源消耗總量是合理的 —— 并非單次提問(wèn)的能耗，而是全球如今大規(guī)模使用人工智能帶來(lái)的總能耗。因此在他看來(lái)，公平的對(duì)比應(yīng)當(dāng)是：“在 ChatGPT 模型訓(xùn)練完成后，回答一個(gè)問(wèn)題所…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實(shí)，能源對(duì)比應(yīng)更公平

02-22

點(diǎn)擊查看更多 +

全站最新

特斯拉Cybertruck全輪驅(qū)動(dòng)版定價(jià)“限時(shí)十天” 馬斯克動(dòng)態(tài)調(diào)價(jià)引粉絲熱議

春晚機(jī)器人引爆消費(fèi)熱潮，中國(guó)智造加速邁進(jìn)“人手一臺(tái)”新時(shí)代

廣汽集團(tuán)戰(zhàn)略抉擇：聚焦埃安發(fā)展，能否開(kāi)啟未來(lái)汽車(chē)市場(chǎng)新篇章？

磷酸鐵鋰與三元鋰：誰(shuí)更適合家用？誰(shuí)又能撐起高端電車(chē)市場(chǎng)？

穿越十萬(wàn)公里的考驗(yàn)：現(xiàn)代Staria舒適與實(shí)用并存，優(yōu)缺點(diǎn)一目了然

雪鐵龍C3 Aircross與達(dá)契亞Duster對(duì)比：誰(shuí)才是省錢(qián)實(shí)用之選？

熱門(mén)內(nèi)容

本欄最新

中國(guó)芯片實(shí)力獲認(rèn)可：豐田鈴木等外企選用，成本品質(zhì)雙重優(yōu)勢(shì)凸顯

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見(jiàn)”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界未見(jiàn)”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見(jiàn)”芯片突破技術(shù)極限再領(lǐng)跑

黃仁勛預(yù)熱GTC 2026：全新芯片將至英偉達(dá)突破極限再領(lǐng)跑AI算力

從對(duì)話(huà)到實(shí)干：豆包大模型2.0化身全能助手，多領(lǐng)域展現(xiàn)驚人動(dòng)手能力

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

香港科大團(tuán)隊(duì)新突破：形式化驗(yàn)證賦能AI，推理能力邁向新高度