在智能駕駛技術快速迭代的當下,小米汽車智能駕駛基座大模型負責人陳龍向外界揭示了小米在輔助駕駛領域的最新突破。他以人類成長類比大模型發展路徑:“就像人類需先積累語言和空間認知能力,再學習駕駛一樣,大模型也需要經歷從基礎能力構建到專項技能訓練的過程。”
小米新一代SU7搭載的XLA認知大模型架構,通過引入視覺、雷達、導航、聲音及機器人數據等多模態輸入,構建起更全面的環境感知體系。該架構突破傳統VLA模型局限,在視覺-語言-動作模型基礎上,創新性融合機器人數據與空間推理能力。陳龍團隊歷時八個月打造的Xiaomi MiMo-Embodied基座模型,通過分階段注入通用多模態數據、輔助駕駛數據及機器人數據,使模型具備類似人類的“先認知世界再掌握技能”的學習能力。
數據融合過程中,團隊發現直接混合訓練會導致輔助駕駛與機器人性能雙重下降。經過反復試驗,他們確立了“先基礎認知后專業能力”的訓練范式:首先強化模型的空間感知與物理常識,再逐步引入駕駛與機器人任務數據。為解決跨模態任務協同問題,團隊開發出思維鏈標注技術,將復雜任務拆解為物體識別、狀態理解、決策執行等子任務,使模型能逐步掌握類人推理邏輯。
面對車端算力限制,陳龍團隊提出潛空間推理(Latent CoT)方案。該技術通過在高維空間進行無聲推理,既保證實時性要求,又保留決策可解釋性。研發過程中,團隊借鑒人類駕駛行為總結出三種核心思維模式:基于直覺的快速反應、依托導航信息的邏輯判斷、運用空間想象的預判能力。以超車場景為例,模型需在潛空間完成“環境感知-風險評估-決策執行”的全流程計算,同時可通過解碼生成人類可讀的思維鏈或未來幀畫面供驗證。
在數據構建方面,小米采用自動化標注與人工精篩結合的方式。羅福莉團隊開發的MiMo-V2-Omni模型負責生成初始標注數據,經人工校驗后形成訓練集。這種模式使標注效率提升數倍,同時確保數據質量。針對長尾場景覆蓋問題,團隊結合世界仿真模型生成海量虛擬數據,并通過世界動作模型實現未來狀態預判,使模型具備“想象”駕駛場景的能力。
當前XLA輔助駕駛系統已實現上車應用,但初期版本采用保守策略,在確保安全的前提下逐步釋放模型能力。陳龍透露,系統通過規則引擎與模型決策的協同機制,在復雜場景中仍保持人工干預通道。隨著數據持續迭代,未來版本將實現更自然的類人駕駛體驗。
在技術路線選擇上,小米主張VLA與世界模型的融合發展。陳龍指出,潛空間推理框架已實現兩種范式的統一:既可通過語言解碼實現決策解釋,也能運用視覺推理生成未來畫面。這種設計使模型能根據場景需求,靈活切換直覺反應、邏輯分析或空間想象等不同思維模式。
對于行業關注的模型升級波動問題,陳龍認為這屬于架構切換期的正常現象。他強調自研基座模型的重要性:“只有掌握預訓練數據主權,才能確保模型發展的可控性。”據悉,小米最新發布的Xiaomi MiMo-V2-Omni全模態基座模型已應用于數據標注與訓練監督,其增強的Agent能力顯著提升了系統對復雜指令的理解水平。
在跨領域技術遷移方面,小米正探索輔助駕駛與機器人技術的協同發展。陳龍透露,團隊與機器人部門共建統一技術架構,在空間感知、運動控制等底層能力上實現復用。這種技術布局不僅提升研發效率,更為未來“人車家”全生態智能聯動奠定基礎。隨著XLA模型持續進化,小米的智能駕駛系統正從數據驅動邁向認知驅動的新階段。






