英偉達機器人研究主管Jim Fan近日提出,人工智能領域正迎來第二次預訓練范式轉型——從“下一個詞預測”轉向“世界建模”。他認為,2026年將成為大世界模型(Large World Models)在機器人技術與多模態AI領域取得實質性突破的關鍵節點。
Jim Fan將世界建模定義為:在給定動作的前提下,預測未來世界狀態的合理演變。這種技術不僅涵蓋視頻生成領域,更將延伸至物理交互場景。他指出,當前視頻生成模型本質上是可學習的物理模擬器,能夠通過捕捉反事實情景(即預測不同動作可能產生的結果)實現推理能力。這種以視覺為中心的建模方式,與依賴語言主干的視覺語言模型(VLM)形成鮮明對比。
在對比兩種技術路線時,Jim Fan強調,VLM體系將視覺信息壓縮后輸入語言模型,導致物理交互所需的細節信息大量丟失。以機器人操作為例,VLM可能準確識別“可口可樂瓶”,但無法預測傾倒后液體流動的物理軌跡。這種知識導向的設計,使得VLM在物理世界建模方面存在先天局限。相比之下,世界建模要求模型直接處理3D運動、觸覺反饋等原始感知數據,構建更完整的物理認知體系。
生物學視角的論證為這一觀點提供有力支撐。Jim Fan指出,人類大腦約三分之一的皮層用于視覺處理,而語言功能僅依賴相對緊湊的腦區。猿類動物雖不具備高級語言能力,卻能完成復雜機械操作,這印證了物理智能可以獨立于語言系統發展。他預測,未來AI推理將突破語言框架,形成基于視覺模擬的思維鏈,通過幾何關系與物理接觸直接解決問題。
技術實現層面面臨多重挑戰。Google DeepMind世界模型團隊負責人Jack Parker-Holder指出,該技術需同時滿足交互式媒體與具身智能的需求,其核心價值在于跨領域泛化能力。但前英偉達研究主管Arsalan Mousavian提醒,從像素到物理的轉化存在顯著技術鴻溝,模型需解決幾何一致性、實體同一性保持、實時推理速度等關鍵問題。特別是在機器人控制場景中,模型必須在計算資源與響應頻率間取得平衡。
產業界已開始加速布局。李飛飛創立的World Labs近期啟動5億美元規模融資,公司估值達50億美元;meta首席AI科學家LeCun新成立的AMI Labs也獲得資本關注,傳聞融資估值達35億美元。這些動向表明,頭部科技企業正將世界建模視為下一代AI基礎設施的核心方向。技術社區的討論則聚焦于非語言推理的可行性,許多研究者認為,基于視覺的物理模擬有望成為機器人領域的“GPT-3時刻”。
Jim Fan的論述延續了其2025年對機器人技術路線的批判性思考。當時他便指出,VLM體系在物理交互場景中存在根本性缺陷,而世界建模提供了一種更接近生物智能的解決方案。隨著智能眼鏡等新型感知設備的普及,原始視覺數據的獲取成本持續降低,這為訓練具備物理認知能力的模型創造了條件。不過,如何定義最優訓練目標、選擇合適的潛在空間表征,仍是待解決的開放性問題。












