當小米正式推出MiMo-V2-Pro大模型時,科技圈的關注焦點意外地從雷軍轉向了馬斯克。這位特斯拉與SpaceX的掌門人,其旗下xAI公司自2023年成立便備受矚目——500億美元融資規模、匯聚OpenAI與DeepMind等頂尖機構的核心成員,甚至最新發布的Grok 4.20 Beta采用四智能體并行架構,試圖通過內部辯論機制提升答案質量。然而,在權威評測平臺Artificial Analysis Intelligence Index上,Grok僅取得48分的成績,而小米的MiMo-V2-Pro卻以49分險勝,這場“意外對決”讓行業重新審視兩家公司的技術路徑。
小米的AI征程起步并不算早。2023年4月,雷軍推動成立AI實驗室大模型團隊,但初期聚焦方向與當前主流的大語言模型存在差異。直到2024年底至2025年初,通用基礎大模型Core團隊才正式組建,并獲得雷軍“投入不設上限”的支持。盡管MiMo-V2-Pro在參數規模(1T參數、42B激活參數)和架構設計(MoE混合專家、混合注意力機制)上并未突破行業常規,但其后訓練階段的三項核心技術,成為超越競爭對手的關鍵。
第一項技術名為MOPD(多教師在線策略蒸餾),直擊行業普遍存在的“蹺蹺板效應”——提升數學能力時代碼能力下降,強化智能體交互時通用對話質量受損。傳統解決方案要么通過參數合并融合多個專家模型,要么讓學生模型學習專家生成的離線數據,但均存在效果局限或分布偏移問題。小米的創新在于構建三階段訓練體系:先用高質量指令數據激活基礎能力,再分別訓練代碼、搜索、數學推理等領域的專家教師,最終讓學生模型在生成回答時接受多個教師的實時監督。這種“動態糾錯”機制使模型在AIME 2025數學競賽中取得94.1分,甚至超越部分教師模型的表現。
第二項突破是真實環境的智能體強化學習(agentic RL)。多數大模型的訓練過程類似“單輪答題”:輸入問題、輸出答案、根據結果獎勵。但現實任務往往需要多步驟交互,例如代碼調試需經歷編寫、運行、報錯、修改的循環。小米為此構建了覆蓋代碼、終端、網頁開發、通用搜索四大場景的12萬個真實交互環境。以代碼訓練為例,模型需直接處理GitHub Issues中的真實問題,通過單元測試結果獲得反饋;網頁開發訓練則通過Playwright執行代碼并錄制視頻,用多模態判別器評估動態布局效果。這種“實習式”訓練使模型在數學推理、通用任務解決等場景中展現出更強的泛化能力。
第三項技術ARL-Tangram由小米與北京大學聯合研發,專注于解決訓練資源利用率低的痛點。傳統RL框架為每條訓練軌跡靜態分配GPU、CPU等資源,導致大量算力閑置。例如,在MOPD訓練中,12個教師模型的GPU平均流式多處理器活躍率不足3%,97%的算力處于空轉狀態。ARL-Tangram通過動態資源管理,將每次外部調用視為原子動作,任務完成后立即釋放資源。實測數據顯示,該系統使AI編程任務的動作完成時間提升最高4.3倍,訓練步驟加速最高1.5倍,外部資源消耗降低71.2%,顯著降低了硬件投入成本。
對于小米而言,MiMo-V2-Pro的意義遠超技術突破本身。長期以來,小米被貼上“硬件性價比之王”的標簽,軟件與AI領域的技術存在感較弱。雷軍在2023年提出的“(軟件×硬件)^AI”戰略,曾被質疑為營銷話術,但MiMo-V2-Pro的全球前十、中國第二的排名,為其提供了實質性支撐。更關鍵的是,該模型與小米汽車、IoT等業務形成協同效應。例如,小米汽車智能駕駛團隊在2026年轉向端到端大模型技術路線,而MiMo-V2-Pro可通過“云端訓練-端側蒸餾”模式,將云端大模型的能力壓縮至車載芯片可運行的輕量模型中,實現從“教師”到“學生”的技術傳承。
相比之下,馬斯克的xAI與特斯拉的協同路徑顯得模糊。盡管Grok在2025年底進入特斯拉車機系統,但僅能承擔設置導航、語音交互等基礎功能,與自動駕駛系統FSD的聯動僅限于導航鏈路。2026年3月,馬斯克宣布啟動“Digital Optimus”項目,試圖將Grok定位為“高層推理大腦”,與特斯拉的實時感知系統形成雙系統協作。然而,這種架構的落地難度遠高于小米的“云-邊-端”協同模式,且Grok在數學推理、代碼生成等核心能力上的落后,進一步削弱了其作為“慢思考系統”的可行性。
盡管MiMo-V2-Pro展現出不俗潛力,但其技術真實性仍存爭議。例如,小米公布的SWE-bench Verified編程測試得分(78.0%)接近行業頂尖水平,但該測試集已被OpenAI證實存在數據污染問題——多個前沿模型僅憑題目編號即可復現正確答案。小米未公布更抗污染的SWE-bench Pro成績,而該測試集上表現最佳的OpenAI GPT-5.4得分僅為57.7%。MiMo-V2-Pro的模型權重尚未開源,官方解釋稱需等待“穩定性達標”,這或許暗示其性能仍需優化。雷軍在發布會上承認“模型剛完成,未來需快速迭代”,也印證了技術成熟度的不足。











