在科技發(fā)展的浪潮中,具身智能正經(jīng)歷著深刻變革,而春晚舞臺成為了這一變革的生動展示窗口。曾經(jīng),具身智能人形機(jī)器人在大眾視野中的亮相還帶著諸多局限。以2025年宇樹H1在春晚的表現(xiàn)為例,當(dāng)時它處于技術(shù)驗證階段,僅能完成基礎(chǔ)舞蹈動作,運動控制能力未得到集中展現(xiàn),整機(jī)動態(tài)軌跡不夠流暢,在自主移動和地面適應(yīng)性方面也存在明顯不足,這反映出人形機(jī)器人從實驗室技術(shù)邁向?qū)嵱没a(chǎn)品過程中面臨的階段性瓶頸。
然而,僅僅一年后的2026年馬年春晚,具身智能人形機(jī)器人實現(xiàn)了驚人跨越。宇樹攜G1與H2兩款人形機(jī)器人登場,以全球首次全自主人形機(jī)器人集群武術(shù)表演驚艷眾人。16臺機(jī)器人組成的集群快速跑位,完成醉拳、雙截棍、舞劍等高難度武術(shù)動作,還能與武術(shù)表演者精準(zhǔn)配合,實現(xiàn)道具的快速更換與穩(wěn)定抓持,無論是運動控制、操作軌跡絲滑度還是群體協(xié)同,都展現(xiàn)出質(zhì)的飛躍。
舞臺上的精彩表現(xiàn)只是具身智能發(fā)展的一個縮影,在舞臺之外,具身智能的作業(yè)智能也取得了重大突破。長序列任務(wù)執(zhí)行與柔性物體操控這兩大技術(shù)難點實現(xiàn)了規(guī)模化落地,其中完成“疊衣服”這一高難度任務(wù)尤為引人注目。該任務(wù)涉及柔性形變感知、時序動作規(guī)劃、精細(xì)力控反饋等全鏈路挑戰(zhàn),是具身智能從結(jié)構(gòu)化場景走向非結(jié)構(gòu)化場景的關(guān)鍵阻礙。
當(dāng)人們驚嘆于機(jī)器人高難度動作時,更應(yīng)深入探究其背后的產(chǎn)業(yè)范式革命。機(jī)器人的能力躍升并非單純的技術(shù)參數(shù)堆砌。無論是通過特定方式緩解“數(shù)據(jù)饑渴”,還是借助閉環(huán)反饋填平“虛實鴻溝”,這些技術(shù)迭代都只是具身智能發(fā)展的“表層切面”。真正推動行業(yè)質(zhì)變的是底層思考邏輯的根本性重構(gòu),機(jī)器人正從“照貓畫虎”的模仿學(xué)習(xí)路徑,轉(zhuǎn)向“理解世界、預(yù)判未來”的模式,仿佛人形機(jī)器人乃至整個具身智能領(lǐng)域都在集體“開智”。
這場“開智”革命并非單一技術(shù)路線的成果,當(dāng)下支撐這一范式轉(zhuǎn)變的技術(shù)路線已分化為多個核心派系,不同技術(shù)邏輯相互碰撞與融合,共同塑造著具身智能的產(chǎn)業(yè)走向。其中,智能基座——模型成為“開智”的核心錨點。模型的架構(gòu)設(shè)計直接決定了機(jī)器人理解物理世界、適配復(fù)雜任務(wù)的能力邊界,而圍繞“如何讓機(jī)器人真正開智”的產(chǎn)業(yè)競賽,正圍繞VLA架構(gòu)的演進(jìn)與爭議進(jìn)入關(guān)鍵階段。
此前,行業(yè)形成明確共識,認(rèn)為人形機(jī)器人的能力突破離不開端到端VLA(Vision-Language-Action,視覺-語言-動作)架構(gòu)的核心驅(qū)動。這種架構(gòu)融合視覺感知、語言理解與動作生成三大模態(tài),打破了傳統(tǒng)“感知-規(guī)劃-控制”分層架構(gòu)的信息損耗難題,實現(xiàn)端到端閉環(huán)。谷歌DeepMind、智元機(jī)器人等中外企業(yè)的技術(shù)落地,驗證了其在結(jié)構(gòu)化場景中的適配準(zhǔn)確率,也使其逐步成為人形機(jī)器人從實驗室走向商業(yè)化的核心技術(shù)底座。
但隨著需求側(cè)向非結(jié)構(gòu)化場景、長序列復(fù)雜任務(wù)延伸,VLA架構(gòu)的局限性逐漸顯現(xiàn)。例如,王興興評價行業(yè)常見的VLA模型為“傻瓜式架構(gòu)”,對其持懷疑態(tài)度,不少業(yè)內(nèi)人士也開始探討VLA模型是具身智能的終局還是階段性過渡方案。這些爭議的核心聚焦于“VLA中的L(語言)是否必要”,本質(zhì)是對具身智能底層邏輯的重新審視。此前業(yè)內(nèi)過度關(guān)注語言的必要性,是借鑒了LLM的成功經(jīng)驗,但具身智能需要與物理世界真實交互,這種交互的骨架是否仍為語言尚不明確。李飛飛曾提到“語言從根本上來說是一種純粹生成的信號,世界上本沒有語言”,星海圖CTO趙行也表示具身智能需要平行于大語言模型的“Large Action Model”,以“動作”為核心,因為人類智能的進(jìn)化是“先有動作、再有視覺、最后有語言”,機(jī)器人適應(yīng)物理世界也應(yīng)遵循類似邏輯。
這場架構(gòu)之爭指向一個根本產(chǎn)業(yè)命題:機(jī)器人應(yīng)以何種方式理解世界,是通過人類語言這一“間接符號”,還是通過動作與環(huán)境的“直接交互”構(gòu)建認(rèn)知,或者以世界模型為核心,讓機(jī)器人在自己世界里“腦補(bǔ)”動作流,進(jìn)而更順暢地在真實世界執(zhí)行。業(yè)內(nèi)逐漸形成共識,具身智能的終局架構(gòu)必然是對物理世界認(rèn)知邏輯的精準(zhǔn)抽象,可能保留VLA架構(gòu)的跨模態(tài)融合優(yōu)勢,也可能剝離冗余的語言中介,但核心必須適配機(jī)器人作為物理實體的交互本質(zhì),實現(xiàn)“感知-決策-執(zhí)行”與物理世界規(guī)律的深度對齊。
在尋找下一個模型架構(gòu)時,模型的打開方式至關(guān)重要,即如何確定機(jī)器人所需的模型架構(gòu)。答案藏在機(jī)器人落地的底層邏輯中,真正轉(zhuǎn)化為生產(chǎn)力的人形機(jī)器人都是聽懂了場景訴求、從真實交互中發(fā)展而來,模型架構(gòu)的進(jìn)化同樣需要回歸機(jī)器人與世界對話的原生方式。機(jī)器人在真實工作場景中,無論是疊衣服還是擰螺絲,都需要具備“長時序記憶與實時反饋能力”“動態(tài)場景的隨機(jī)應(yīng)變能力”,這兩大能力的核心是“預(yù)判未來狀態(tài)”,而非簡單“記住過往數(shù)據(jù)”。
以人類執(zhí)行疊衣服、裝配零件等任務(wù)為例,不會逐幀依賴視覺反饋,而是基于物理常識預(yù)判下一步動作結(jié)果。機(jī)器人要實現(xiàn)“絲滑操作”,關(guān)鍵在于將“記憶”升級為“預(yù)測”,通過模型推演未來多幀的場景變化與動作后果。螞蟻靈波開源的具身世界模型LingBot-VA將“先預(yù)測、再動作”的架構(gòu)邏輯推向極致,創(chuàng)新性地提出自回歸視頻-動作世界建模框架,將“預(yù)測世界狀態(tài)”與“生成動作序列”深度綁定,實現(xiàn)“邊預(yù)測,邊動作”,不再是機(jī)械執(zhí)行預(yù)設(shè)指令,而是每一步操作時大腦都在實時推演接下來的畫面。該模型不僅思維模式與人類相似,工作特性也高度重合,能記住操作過程,具備泛化能力,學(xué)會洗盤子后就能洗碗,還能輕松完成清洗細(xì)小透明試管等高精度任務(wù)。
英偉達(dá)的DreamGen也采用類似思路,先生成視頻,再反推動作,其基礎(chǔ)模型架構(gòu)分為上下兩部分,上半部分視頻模型負(fù)責(zé)預(yù)測未來,下半部分負(fù)責(zé)看著預(yù)測視頻反推并輸出動作。不過,DreamGen推出時雖被寄予厚望,但尚未跑通閉環(huán),原因是現(xiàn)實世界充滿變量,機(jī)器人執(zhí)行中出現(xiàn)微小物理偏差時,由于視頻提前生成,模型無法實時修正畫面,導(dǎo)致“腦子想的和手做的”脫節(jié)。但這并不意味著DreamGen是失敗嘗試,相反,它印證了世界模型是機(jī)器人在真實物理世界作業(yè)的核心支撐,只是當(dāng)時尚未抵達(dá)產(chǎn)業(yè)臨界點,而LingBot-VA的問世補(bǔ)齊了最后一塊短板,成為具身世界模型完整閉環(huán)跑通的標(biāo)志性拐點。
“用機(jī)器人的視角打開世界”,本質(zhì)是讓模型架構(gòu)回歸物理世界的本質(zhì)規(guī)律。機(jī)器人不需要像人類一樣通過語言理解“重力”“摩擦力”,但需要通過預(yù)測能力感知這些物理規(guī)則;不需要記住每一個場景的操作參數(shù),但需要能推演不同場景下的動作后果。這種以“預(yù)測”為核心的架構(gòu)邏輯,契合了機(jī)器人與物理世界交互的原生需求,擺脫對人類認(rèn)知中介(語言)的依賴,直接通過“預(yù)測-行動”的閉環(huán)建立與世界的直接連接,是具身智能走向“適配世界”的重要跨越。
具身世界模型有望成為具身智能的關(guān)鍵能力與重要基座,其融合了“世界模型”與“物理動作反饋閉環(huán)”,并非簡單技術(shù)疊加,而是深度融合。世界模型為機(jī)器人搭建可預(yù)判、可推演的虛擬世界,提前模擬動作后果與環(huán)境變化;物理動作反饋將現(xiàn)實交互中的數(shù)據(jù)實時回灌模型,持續(xù)校準(zhǔn)虛擬與現(xiàn)實的偏差,形成自進(jìn)化閉環(huán)。它從根源上重構(gòu)了機(jī)器人理解物理世界的底層邏輯,讓機(jī)器人擺脫對人工指令、標(biāo)注數(shù)據(jù)與固定軌跡的依賴,成為破解非結(jié)構(gòu)化場景適配難、長時序任務(wù)穩(wěn)定性差、柔性操作精度不足等行業(yè)落地瓶頸的核心能力支柱。
在產(chǎn)業(yè)視角下,我們既不應(yīng)否認(rèn)VLA的貢獻(xiàn),也不能盲目推崇VA的未來,而應(yīng)站在機(jī)器人的視角看待世界,傾聽機(jī)器人對模型架構(gòu)的需求。這場模型架構(gòu)變革是產(chǎn)業(yè)更清醒的信號,也是具身智能走向規(guī)模化商用的關(guān)鍵一步。模型架構(gòu)的底層突破直接決定了機(jī)器人的泛化能力、作業(yè)精度與落地成本,將推動行業(yè)從舞臺化的技術(shù)展示走向工業(yè)、家政、特種作業(yè)等真實場景的生產(chǎn)力釋放,為整機(jī)研發(fā)、場景方案、商業(yè)化落地劃定清晰的技術(shù)主線。









