剛剛過去的除夕夜,人形機器人在春晚舞臺上的表現(xiàn)再次刷屏。
回望過往表現(xiàn),2019年,深圳分會場的6臺優(yōu)必選Walker大型仿人機器人集體起舞,讓大家看到了人形機器人走上舞臺的可能;2025年,16臺宇樹H1人形機器人以整齊劃一的賽博秧歌,印證了本體控制與群體協(xié)同的初步成熟。
到了今年,內行捕捉到的信號遠比視覺奇觀更深刻:這屆機器人不“僵”了。它們在復雜的陣型變換、多變的光影追蹤下,展現(xiàn)出了一種生物才有的靈動。
松延動力仿生人形機器人“蔡明”逼近真人
宇樹人形機器人G1花式秀武技
魔法原子人形機器人躍動伴舞
銀河通用人形機器人Galbot G1貨架取物
這背后,源于一場漂亮的本體革命:更先進的控制算法、毫秒級的軌跡追蹤以及軟硬件的深度耦合。
然而,清醒的行業(yè)觀察者都知道,晚會終究是一定意義上的預設場景。當機器人走下鋪設好的舞臺,進入非標的工廠、雜亂的家庭或多變的養(yǎng)老院,僅靠靈活的身體已難以過關。
要跨越真實世界的鴻溝,機器人必須長出能理解、預判并規(guī)劃物理世界的“大腦”。
01.
主流范式:VLA 的天花板與行業(yè)焦慮
毫無疑問,目前具身智能最主流的“大腦”底座是 VLA(視覺-語言-動作)。2026年開年,這個賽道堪稱卷王之戰(zhàn)。
首先。螞蟻靈波用20000小時真實數(shù)據(jù),喂出最強開源VLA基座。它使機器人擁有精確的空間感知能力,并可適配9種不同構型的雙臂機器人,真正實現(xiàn)“一個大腦,適配多個身體”。
小米剛剛開源的Xiaomi-Robotics-0,使用雙腦協(xié)同架構及兩階段訓練策略,用47億參數(shù)在消費級顯卡上跑出了驚人的精細度,疊毛巾、拆樂高這種單任務可保持30分鐘的連續(xù)作業(yè)高穩(wěn)定性,可以說幾乎做到了實用級。
在VLA、VLM的Benchmark以及真實機器人的效果指標
地平線緊隨其后的HoloBrain-0基座模型,作為面向真實機器人的全棧VLA,則試圖通過“具身先驗”讓機器人擁有更強的3D空間感,能折疊柔軟衣物,也能抓取從未見過的物體,同樣具有強大的跨平臺泛化能力。
這些突破,意味著 VLA 在結構化環(huán)境、單任務場景下,已經(jīng)邁入實用門檻。
但VLA 的原理也注定了它的天花板。眼睛看到指令,大腦直接輸出動作信號,這種“端到端”的模式在實驗室演示中很漂亮,但一旦要進入工廠、家庭、藥房這種真實環(huán)境,問題就接踵而至:
它知道疊毛巾的步驟,但不理解重力對織物褶皺的因果;它能拆積木,卻無法在大腦中模擬出由于重心不穩(wěn)導致的塔身傾斜。
這種缺失物理常識的盲動,讓 VLA 很難處理長序列任務中的意外。也就是說,機器人如果只是在模仿人類,而沒有對物理世界的理解,它永遠只能在結構化環(huán)境里表演。
02.
技術躍遷:當世界模型進入控制閉環(huán)
顯然,行業(yè)也已經(jīng)意識到,具身智能的下一場進化,必須從看圖說話式的動作對齊,轉向腦內預演式的物理模擬,也就是VLA向具身世界模型的范式躍遷。
這種轉變是全球性的競速。
作為路線的最早探索者之一,DeepMind 通過海量視頻訓練出的Genie模型,證明了AI可以通過視頻學習腦補出一個可交互的物理世界。它的核心邏輯是:預測未來,是控制未來的前提。
黃仁勛力推的GR00T項目,則利用大規(guī)模生成式 AI在仿真環(huán)境中為機器人提供預演能力。NVIDIA的思路是讓機器人在數(shù)字孿生世界里先經(jīng)歷萬次挫折,從而在現(xiàn)實中獲得物理直覺。
而Figure 02盡管依然擁有極強的VLA屬性,但在其最新的架構中,開始顯著強化“動作后果預測”。這種從單純的指令追隨向“物理后果評估”的轉變,本質上也是向世界模型的靠攏。
在這場范式躍遷中,國內螞蟻靈波的打法顯得尤為硬核且務實。它不僅認可世界模型這一方向,更率先通過開源路徑,給出了從“視覺模擬”到“動作控制”的閉環(huán)方案。
其核心在于兩套互為表里的系統(tǒng)。LingBot-World不止是一個視頻生成模型,更是構建一個與物理世界規(guī)律一致的 高保真、可交互仿真環(huán)境。機器人可以在這個虛擬世界里進行無數(shù)次零成本的人生模擬,學習技能、試錯規(guī)劃,再將經(jīng)驗無損遷移到現(xiàn)實。
這意味著,在動手前,它能預判出杯子受力后滑動的軌跡、織物被抓取后的形變,并在大腦里完成物理模擬。
LingBot-World 在適用場景、生成時長、動態(tài)程度、分辨率等方面的表現(xiàn)
真正實現(xiàn)降維打擊的,是同步開源的LingBot-VA。它號稱全球首個自回歸視頻-動作一體化世界模型,可根據(jù)當前觀測,同步生成下一幀的世界畫面和達成該畫面的機器人動作,實現(xiàn)“邊推演,邊行動”。
如果現(xiàn)實中物體因為油漬打滑、或受重力影響偏離了預演軌跡,系統(tǒng)能瞬間通過畫面的不對齊感知到偏差,自動修正抓取力度或角度。
這種“預測-對齊-修正”的閉環(huán),本質上是給機器人裝上了一雙能看穿物理因果的慧眼。它讓機器人不再只是死記硬背VLA的動作概率,而是擁有了應對非標環(huán)境的物理直覺。
這是解決機器人進入藥房、家庭、工廠等復雜場景時可以見招拆招的關鍵。
03.
產(chǎn)業(yè)價值:從特種表演到通用交付
脫離了實驗室的炫技,這種從“動作映射”到“物理預演”的跨越,本質上也是在為產(chǎn)業(yè)的規(guī)模化交付掃清障礙。
首先是數(shù)據(jù)效率的質變。以前訓練一個新技能要喂上萬條真機數(shù)據(jù),而在 LingBot-VA 的邏輯下,模型懂因果、懂常識,只需30~50條演示數(shù)據(jù)就能類比學會新任務,落地成本極大縮減。
其次是任務成功率的確定性。具身智能最怕的不是任務難,而是環(huán)境亂。在 RoboTwin 2.0 仿真基準數(shù)據(jù)中,這種具備“預判能力”的大腦表現(xiàn)出驚人的韌性,多任務成功率穩(wěn)定在 91% 以上。
換句話說,機器人即使在環(huán)境雜亂、傳感器有噪聲的非標工廠里,也能穩(wěn)健地完成長流程操作。
最后是大腦的通用性。全棧開源背后,是一套通用大腦適配多元硬件的底座方案。無論是宇樹的 H1、G1,還是各類工業(yè)級機械臂,都可以共用這一套底層認知邏輯。
這就意味著下游廠商不必再為每一款機器人重復造輪子,而是可以將精力集中于垂直場景的工藝打磨。
04.
結語:從“秀場”走向“戰(zhàn)場”
在具身智能的賽道上,從來沒有唯一的標準答案。
回看這幾年,我們其實是在分步給機器人裝零件:2023年是“對臺詞”,接入大模型讓它聽懂了人話;2024年是“練筋骨”,硬件成熟讓它走出實驗室,學會了基本的拿放。而如今是邏輯覺醒,機器人終于開始理解物理規(guī)律,動手前學會了先在大腦里打個草稿。
當然,VA架構雖然展現(xiàn)了降維打擊的潛力,但它并非唯一路徑。
業(yè)內關于最優(yōu)方案的博弈從未停止:有人依然篤信數(shù)據(jù)夠大,純 VLA 模型也能暴力模擬物理規(guī)律;也有人主張用嚴謹?shù)臄?shù)學公式去精準控制,確保極端場景下的零差錯。
這種多路線的交叉跑位,反而讓2026年的具身智能賽道更具實戰(zhàn)價值。
VA 路徑的意義在于,它極大地提升了機器人在非標環(huán)境下的直覺。當機器人開始擁有這種物理邏輯,能在三維世界里精準預判、穩(wěn)健操作時,具身智能才算真正從春晚的舞臺,落到現(xiàn)實產(chǎn)業(yè)中。










