在近日舉辦的某行業論壇年會上,宇樹科技創始人王興興就具身智能的發展前景發表了深度見解。他指出,盡管該領域已取得顯著進展,但要實現類似ChatGPT的顛覆性突破,仍需跨越多個技術門檻。當前機器人技術面臨的核心挑戰在于泛化能力不足,實驗室環境下的高成功率難以復現于復雜多變的現實場景,這成為制約技術落地的關鍵因素。
據王興興分析,現有機器人系統在預設場景中可達到近百分百的任務完成度,但環境參數稍作變化便會導致性能斷崖式下降。這種局限性直接阻礙了機器人從科研階段向商業化應用的轉化進程。為突破這一瓶頸,他提出三大技術攻關方向:通過優化模型架構提升運動指令的表達能力,在有限訓練數據中挖掘更高價值以提升數據利用率,以及擴大強化學習規模以釋放算法潛力。
在技術路線選擇上,王興興特別看好基于視頻生成的世界模型構建方案。該方案模擬人類認知模式,先通過AI生成任務執行的高質量視頻,再將虛擬畫面與機械動作精準匹配,最終轉化為可執行指令。這種"先想象后實踐"的路徑被認為更接近生物智能的運作機制,為機器人理解復雜任務提供了新思路。
會議期間,王興興重點提及字節跳動最新發布的Seedance 2.0視頻生成技術。他認為高保真視頻生成能力是實施該方案的基礎前提,但當前全球研究者共同面臨的難題在于如何確保虛擬畫面與機械動作的毫秒級同步。這個技術卡點直接關系到機器人能否將"大腦中的設想"準確轉化為現實操作,目前尚未有突破性解決方案。
這位科技創業者透露,其團隊正沿著這個方向展開攻關,嘗試通過多模態融合技術縮小虛擬與現實的差距。他預計,當視頻生成精度與動作控制精度達到某種平衡時,機器人將首次具備跨場景通用能力,這或許將開啟具身智能發展的新紀元。不過他也坦承,要實現這個目標,整個行業可能需要3-5年的技術沉淀期。










