如果把人生視作一場開放式的大型多人在線游戲,那么自2022年ChatGPT橫空出世以來,這場游戲的規(guī)則已悄然改變。短短幾年間,人工智能從模仿語言的統(tǒng)計機(jī)器,進(jìn)化為具備理解與邏輯推理能力的思考系統(tǒng)。新一代推理模型不再滿足于“高維概率空間的詞匯拼貼”,而是學(xué)會在生成內(nèi)容前暫停,在沉默中評估因果、權(quán)衡可能性,甚至反思實(shí)驗(yàn)結(jié)果是否自洽。
前1X Technologies機(jī)器人公司副總裁、長期研究機(jī)器人與通用智能交叉領(lǐng)域的Eric Jang在最新文章中指出,真正的變革不在于模型能“說什么”,而在于它們開始系統(tǒng)性地思考。當(dāng)推理能力被規(guī)模化、自動化并轉(zhuǎn)化為可調(diào)度的算力資源時,人類社會將面臨生產(chǎn)力、組織形態(tài)乃至權(quán)力結(jié)構(gòu)的全面重構(gòu)。他以自身經(jīng)歷為例:過去兩個月,他幾乎完全依賴Claude Code進(jìn)行編程,從零實(shí)現(xiàn)AlphaGo(代碼倉庫即將開源)的過程中,不僅讓AI編寫基礎(chǔ)設(shè)施代碼,還讓它提出假設(shè)、設(shè)計實(shí)驗(yàn)、優(yōu)化超參數(shù),甚至生成實(shí)驗(yàn)報告。
現(xiàn)代編程智能體的能力已遠(yuǎn)超上一代自動調(diào)參系統(tǒng)。與Google Vizier等基于高斯過程的工具不同,它們能直接修改代碼本身,搜索空間不受限,還能根據(jù)實(shí)驗(yàn)結(jié)果提出理論解釋并驗(yàn)證預(yù)測。這種“自動化科學(xué)家”模式正滲透到各個領(lǐng)域:從優(yōu)化神經(jīng)網(wǎng)絡(luò)架構(gòu)到實(shí)現(xiàn)完整網(wǎng)頁瀏覽器,從證明數(shù)學(xué)難題到設(shè)計投資策略,甚至自我優(yōu)化CUDA內(nèi)核以提升運(yùn)行速度。Eric Jang強(qiáng)調(diào),這些能力的核心是推理能力帶來的目標(biāo)執(zhí)著性——代碼REPL智能體在追求目標(biāo)時表現(xiàn)出極強(qiáng)的搜索能力和“執(zhí)拗”態(tài)度。
計算機(jī)科學(xué)領(lǐng)域正迎來一個“黃金時代”。圍棋、蛋白質(zhì)折疊、音樂視頻生成、自動數(shù)學(xué)證明等曾被認(rèn)為計算不可行的問題,如今已落入博士生可負(fù)擔(dān)的算力范圍內(nèi)。AI初創(chuàng)公司正用大語言模型探索新物理規(guī)律,手中僅有少量驗(yàn)證器和幾百兆瓦算力。多個實(shí)驗(yàn)室甚至開始認(rèn)真尋找千禧年大獎難題的證明。Eric Jang提醒,比起關(guān)注AI當(dāng)前能做什么,更應(yīng)思考其進(jìn)步速度對未來24個月能力演化的影響——編程助手很快將強(qiáng)大到能一鍵生成任何數(shù)字系統(tǒng),工程師甚至可以指令A(yù)I“重做一家SaaS公司”的前后端及所有服務(wù)。
推理能力的進(jìn)化路徑可從邏輯推斷的分類中窺見一斑。演繹推理通過嚴(yán)格邏輯規(guī)則從前提推導(dǎo)結(jié)論,例如“所有哺乳動物有腎臟”結(jié)合“所有馬是哺乳動物”可得出“所有馬有腎臟”;歸納推理則關(guān)注概率性判斷,貝葉斯公式是其核心工具。然而,現(xiàn)實(shí)世界的復(fù)雜性使純粹邏輯推理面臨計算成本爆炸的問題:井字棋可通過窮舉推導(dǎo)最優(yōu)走法,但國際象棋或圍棋的對局?jǐn)?shù)量龐大到無法窮舉;貝葉斯網(wǎng)絡(luò)中精確推斷是NP-hard問題,且推理步驟越多,結(jié)果越模糊。人類處理不確定性的方式并非逐一計算概率,而是通過端到端概率建模近似完成所有變量消除與聯(lián)合推斷,這解釋了神經(jīng)網(wǎng)絡(luò)在推理中的強(qiáng)大優(yōu)勢。
AlphaGo是早期結(jié)合演繹搜索與深度學(xué)習(xí)歸納推理的典范。其演繹步驟僅涉及合法動作和棋盤狀態(tài),歸納步驟則通過策略網(wǎng)絡(luò)削減搜索寬度、價值網(wǎng)絡(luò)削減深度,最終超越人類水平。但這種模式高度依賴圍棋的固定規(guī)則,無法直接應(yīng)用于語言等模糊領(lǐng)域。如今推理型大語言模型(Reasoning LLMs)通過更靈活的方式結(jié)合演繹與歸納推理,例如討論“哺乳動物、馬和腎臟”的關(guān)系時,既能執(zhí)行細(xì)微的增量步驟(如按位與運(yùn)算),也能實(shí)現(xiàn)跨度更大的邏輯飛躍(如基于場景的推理)。
大語言模型的推理能力并非一蹴而就。2022年前,LLM在數(shù)學(xué)和推理任務(wù)中表現(xiàn)糟糕,習(xí)慣于憑直覺行事。2022年“思維鏈”提示詞的出現(xiàn)顯著提升了模型表現(xiàn),但2023年的提示詞工程最終被證明無法從根本上提升模型智能。瓶頸在于如何訓(xùn)練出更好的推理電路,而非激活預(yù)訓(xùn)練中偶然形成的“幸運(yùn)電路”。2024年初,樹搜索等演繹推理方法嘗試通過并行化和回溯提升推理能力,但效果有限,因?yàn)檎嬲钠款i在于LLM內(nèi)部的推理電路。
當(dāng)前推理范式的突破來自DeepSeek-R1模型。其核心邏輯包括:從強(qiáng)大基座模型出發(fā),使用在線策略強(qiáng)化學(xué)習(xí)(如GRPO)針對規(guī)則獎勵(數(shù)學(xué)題、編程測試等)優(yōu)化,同時設(shè)定格式獎勵確保推理過程發(fā)生在特定標(biāo)簽內(nèi)。R1-Zero雖能開發(fā)優(yōu)秀推理電路,但難以配合使用且常規(guī)任務(wù)表現(xiàn)不佳。DeepSeek團(tuán)隊通過四個訓(xùn)練階段(RL→SFT→RL→SFT→RL)在恢復(fù)非推理任務(wù)高性能的同時,使推理軌跡更易理解。這一方案的成功依賴于四個條件:基座模型足夠強(qiáng)大以采樣連貫推理軌跡;采用同策略RL而非僅SFT;使用基于規(guī)則的獎勵而非人類反饋訓(xùn)練的獎勵模型;擴(kuò)大推理算力以支持長上下文采樣。










