在近期一期備受關注的Dev Interrupted播客中,OpenAI Codex工程負責人Thibault Sottiaux深入剖析了Codex團隊構建自主編程智能體的獨特方法論。他拋出一個引人深思的觀點:復雜的腳手架并非能力的擴展,而更像是對問題的掩蓋。這一觀點為當前智能體開發領域提供了全新的思考視角。
值得關注的是,播客發布不到三周,OpenClaw創始人Peter Steinberger便宣布加入OpenAI,負責下一代個人智能體項目。Steinberger此前公開表示自己是“Codex最大的免費廣告”,他借助Codex構建了整個OpenClaw,使生產力大幅提升。盡管他承認Claude Opus是“最好的通用智能體”,但最終還是選擇了OpenAI。這一選擇背后,與Sottiaux在播客中闡述的理念高度契合,即真正的競爭力在于模型能力和垂直整合,而非外部堆砌的工程手段。
Sottiaux在播客中強調,Codex首先是一個通用智能體,產品界面是后續才考慮的要素。先專注于提升智能體的能力,再探索其應用場景,這種思路帶來了意想不到的效果。社區中每周都有公司基于Codex的開源版本構建業務,且應用領域廣泛,不僅限于編程,還涉及電子表格編輯、瀏覽器自動化等非編程領域。這充分證明了智能體的通用性,其產品形態具有極大的可變性。
對于軟件工程師而言,真正的瓶頸并非代碼生成,而是日常工作中的規劃、溝通、代碼審查以及理解系統狀態等環節。當代碼生成速度大幅提升后,這些環節的問題便凸顯出來,成為制約整體效率的關鍵因素。
Codex團隊處于一個獨特的位置,基礎模型、智能體框架和面向用戶的產品都在同一組織內部。這種垂直整合帶來了諸多優勢。一方面,研究和工程形成雙向飛輪,工程實踐中的問題會影響研究方向,研究突破又會重塑工程路線圖,兩者相互促進。另一方面,團隊可以選擇在合適的層級解決問題。有些問題無需在框架中打補丁,直接在下一版模型訓練中解決效果更佳。Codex團隊還能在小、中、前沿模型上測試同一套系統的表現,驗證整個系統是否符合預期的擴展曲線,將擴展定律從模型層面延伸到完整系統層面。
Sottiaux引用No Free Lunch定理指出,試圖在所有分布上都表現智能,必然不如為特定分布專門優化。Codex的harness和model耦合訓練和部署,正是針對特定分布進行優化,從而獲得了單獨優化任何一方都無法達到的能力提升。對于沒有垂直整合條件的團隊,Sottiaux認為,若想保持對所有基礎模型的完全無關性,就只能基于這些模型的公共子集構建,性能必然會受到影響。他預計主流玩家最終只會為少數幾個模型做深度適配。
在播客中,Sottiaux著重強調了腳手架的問題。他指出,腳手架本應是臨時支撐,隨著模型能力增強應逐步拆除,模型應能獨立站立。然而,許多團隊卻將腳手架當作噴氣背包,不斷往里添加工具、邏輯和規則,導致系統越來越復雜。這帶來了能力懸崖的風險,即框架中引入過多偏見和約束,當模型能力提升時,反而無法充分發揮新能力。而垂直整合的優勢在于,Codex團隊只需關注自身模型系列,每次改進都能移除部分腳手架,不用擔心破壞外部因素。
Codex開源并非簡單的社區建設,背后有著深層次的考量。一是破除智能體的神秘感,展示通過做好幾個原語就能從模型中榨取驚人性能。二是理解開源世界將如何被改變,Codex團隊認為AI解決代碼生成問題后,開源的運作方式會發生根本性變化,他們想通過參與開源提前了解這種變化。三是借助社區創造力發現新用法,目前倉庫有超過一千個fork,團隊與fork作者合作,將好的改動移植回主倉庫。
在從Type遷移到Rust的過程中,Codex團隊面臨了社區關系中的艱難時刻。由于遷移意味著重寫代碼庫,此前接受了大量PR的團隊面臨著巨大挑戰。但團隊堅信未來會有大量智能體并發運行,需要高效語言,最終完成了遷移。遷移后,社區關系重新建立,一批優秀的Rust貢獻者加入了核心開發。
回顧過去,Codex團隊在2025年面臨的最大痛點是上下文壓縮。當智能體工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文繼續,這會導致模型丟失大量工作上下文。用提示詞和框架層的啟發式方法解決效果不佳,最終團隊決定在模型訓練層面端到端解決,現在智能體可以跨越20個上下文窗口持續工作,相關投訴幾乎為零。
展望2026年,Codex團隊有三個主要方向。一是多智能體網絡,單智能體可靠后,今年將實現多智能體協作,產出量有望提升一到兩個數量級,但同時也會面臨token消耗和代碼審查增加的問題。二是速度,預計模型今年將顯著加速,達到智能水平與響應速度的平衡點,提升產品體驗。三是協作型人格,Codex目前的交互風格被用戶評價為“固執的直男工程師”,團隊希望模型在協作中能給予情感確認,根據不同場景調整交互風格。
隨著智能體的發展,開發者角色也在發生重塑。代碼審查成為關鍵瓶頸,Codex團隊構建的代碼審查模型在OpenAI內部得到廣泛應用,捕獲了大量bug。智能體加速了人與人之間的協作,團隊面對面交流時間增加,創意討論和規劃更多。同時,記錄意圖變得至關重要,團隊開始構建工具追蹤組織層面的變更。大型spec存在局限性,有時plan只需列出幾件要做的事來驗證方向。工程師的職業路徑向TLM(Tech Lead Manager)演進,核心技能更像技術負責人加產品經理的混合體。新人在團隊中也展現出獨特優勢,他們沒有傳統編程習慣的束縛,對新工具和新方式接受度高,能快速提高團隊生產力。
Sottiaux最后給出了關于Skills的建議。這是一個開放標準,用戶可以教模型用自己認為最有效的方式執行特定任務。他自己有一個QA skill,讓Codex在終端里測試新功能。他比喻給智能體添加Skills就像訓練寶可夢,每次交互它都在升級,逐漸建立信任關系。關鍵在于不要只自動化代碼生成,要思考日常工作中不想做但必須做的環節,將這些交給智能體,保留編程中令人愉悅的部分,讓智能體成為專屬于自己工作流的搭檔。











