自動駕駛領(lǐng)域的競爭格局正在悄然轉(zhuǎn)變。過去幾年,車企間的比拼主要聚焦于功能覆蓋范圍——誰能實現(xiàn)更遠(yuǎn)的行駛距離、覆蓋更多城市、提供更穩(wěn)定的駕駛體驗。高速導(dǎo)航輔助、城市領(lǐng)航、自動泊車等功能成為衡量技術(shù)實力的核心指標(biāo)。然而,這種以功能堆砌為主的競爭模式已接近天花板。
主流玩家在功能層面的差距逐漸縮小,復(fù)雜場景下的表現(xiàn)成為新的分水嶺。系統(tǒng)能否連續(xù)完成識別、判斷和動作,而非單純依賴單一功能,成為決定體驗的關(guān)鍵。這種轉(zhuǎn)變意味著,單純增加功能已難以顯著提升整體性能,架構(gòu)設(shè)計開始主導(dǎo)技術(shù)上限。功能決定當(dāng)前市場競爭力,而架構(gòu)決定未來技術(shù)演進(jìn)空間。
理想汽車正面臨這樣的轉(zhuǎn)折點。過去,其核心競爭力在于產(chǎn)品定義和家庭場景體驗,但在自動駕駛架構(gòu)競爭階段,公司需證明自己不僅能打造用戶喜愛的車型,更能定義下一代自動駕駛系統(tǒng)的技術(shù)范式。其最新發(fā)布的MindVLA-o1架構(gòu),正是對這一挑戰(zhàn)的回應(yīng)。
自動駕駛技術(shù)已從規(guī)則驅(qū)動轉(zhuǎn)向AI驅(qū)動,端到端、視覺語言模型(VLM)等架構(gòu)成為主流。2024年,理想推出端到端與VLM雙架構(gòu),實現(xiàn)跨場景統(tǒng)一理解能力;2025年,空間理解、語言理解和行動決策被整合進(jìn)VLA框架。此次發(fā)布的MindVLA-o1則進(jìn)一步推動技術(shù)向統(tǒng)一基礎(chǔ)模型演進(jìn)。
然而,架構(gòu)轉(zhuǎn)型并非一勞永逸。端到端架構(gòu)雖減少了信息損耗,但復(fù)雜場景下仍面臨新挑戰(zhàn):系統(tǒng)需在動態(tài)環(huán)境中穩(wěn)定連接理解、判斷和行動。行業(yè)核心問題轉(zhuǎn)變?yōu)椋含F(xiàn)有AI方案能否向更統(tǒng)一、更強(qiáng)、更易部署的方向突破。MindVLA-o1的推出,正是理想對這一問題的技術(shù)解答。
MindVLA-o1的核心目標(biāo)是構(gòu)建一個“駕駛大腦”,實現(xiàn)統(tǒng)一理解、判斷和行動。其架構(gòu)設(shè)計摒棄了傳統(tǒng)分模塊拼接方式,將視覺、語言和軌跡模型直接整合進(jìn)原生多模態(tài)混合專家(MoE)Transformer中。這種設(shè)計旨在解決三大難題:物理世界理解、環(huán)境變化應(yīng)對和判斷到行動的轉(zhuǎn)化。
在物理世界理解方面,理想引入3D視覺編碼器(3D ViT),結(jié)合激光雷達(dá)幾何信息,幫助系統(tǒng)理解物體的三維位置關(guān)系。公司創(chuàng)始人李想比喻道:“這類似于人類兒童時期的空間認(rèn)知訓(xùn)練,是駕駛能力的基礎(chǔ)。”若系統(tǒng)無法理解三維空間,后續(xù)預(yù)測和控制模型將失去根基。
面對環(huán)境變化,系統(tǒng)需從“識別現(xiàn)狀”升級為“預(yù)測未來”。理想在語言模型基礎(chǔ)上引入預(yù)測式隱世界模型,在虛擬空間中推演場景演變。同時,系統(tǒng)需平衡“慢思考”與“快反應(yīng)”:復(fù)雜場景需要多步推理,但駕駛決策必須即時完成。MindVLA-o1通過統(tǒng)一框架實現(xiàn)兩種能力的共存。
行動轉(zhuǎn)化環(huán)節(jié),理想通過引入行為專家模塊,從場景、特征和導(dǎo)航指令中提取信息,提升決策效率。系統(tǒng)采用并行解碼和離散擴(kuò)散技術(shù),確保軌跡生成符合車輛動力學(xué)約束,實現(xiàn)判斷到動作的穩(wěn)定轉(zhuǎn)化。理想開發(fā)了三維高斯?jié)姙R渲染引擎和分布式訓(xùn)練框架,將渲染速度提升近2倍,訓(xùn)練成本降低75%,支持閉環(huán)強(qiáng)化學(xué)習(xí)。
車端部署是另一大挑戰(zhàn)。理想評估近2000種模型配置,在英偉達(dá)Orin與Thor芯片上找到精度與延遲的平衡點,通過軟硬件協(xié)同設(shè)計實現(xiàn)模型高效運(yùn)行。公司認(rèn)為,未來量產(chǎn)智駕的關(guān)鍵不在于單項能力提升,而在于系統(tǒng)能否穩(wěn)定調(diào)用各項能力,形成完整的“駕駛大腦”。
行業(yè)共識逐漸形成:功能堆砌難以持續(xù)推高系統(tǒng)上限,統(tǒng)一架構(gòu)成為競爭焦點。但具體路徑存在分歧:部分玩家側(cè)重安全冗余,部分強(qiáng)調(diào)數(shù)據(jù)規(guī)模,而理想選擇優(yōu)先夯實物理世界理解能力,再將預(yù)判、推理和控制整合進(jìn)單一邏輯框架。這種選擇直指自動駕駛的核心挑戰(zhàn):駕駛是連續(xù)判斷而非瞬時識別,是動態(tài)博弈而非靜態(tài)處理。
理想的技術(shù)布局不止于智駕。其提出的完整AI框架包含統(tǒng)一數(shù)據(jù)引擎、MindVLA-o1模型、多模態(tài)世界模型和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,形成閉環(huán)系統(tǒng)。這一架構(gòu)不僅服務(wù)于駕駛功能,更瞄準(zhǔn)更廣泛的車載智能和具身智能領(lǐng)域。自動駕駛在此既是落地場景,也是能力訓(xùn)練場。
若自動駕駛核心轉(zhuǎn)向基礎(chǔ)模型能力,行業(yè)競爭邏輯將隨之改變。功能覆蓋不再是唯一標(biāo)準(zhǔn),模型能力成為新焦點;供應(yīng)鏈優(yōu)勢部分讓位于“數(shù)據(jù)+算力+模型”的組合能力。車企分層標(biāo)準(zhǔn)將新增一條:誰能持續(xù)訓(xùn)練和迭代“車的大腦”。
MindVLA-o1的發(fā)布,標(biāo)志著理想在自動駕駛架構(gòu)競爭中邁出關(guān)鍵一步。未來幾年,行業(yè)表面差異仍體現(xiàn)在功能體驗和開城節(jié)奏上,但深層競爭已轉(zhuǎn)向系統(tǒng)能力的持續(xù)積累。自動駕駛是入口,理想押注的是面向物理世界的統(tǒng)一智能能力。這場技術(shù)轉(zhuǎn)型的勝負(fù)尚未可知,但行業(yè)命題已悄然更換。

















