小米公司近日正式推出面向智能體時(shí)代的全模態(tài)基座模型Xiaomi MiMo-V2-Omni,該模型通過(guò)底層架構(gòu)創(chuàng)新實(shí)現(xiàn)了文本、視覺(jué)、語(yǔ)音三大模態(tài)的深度融合。其核心突破在于將感知與行動(dòng)能力原生綁定,支持多模態(tài)信息處理、工具調(diào)用、函數(shù)執(zhí)行及圖形用戶界面操作,標(biāo)志著多模態(tài)大模型進(jìn)入實(shí)用化新階段。
在音頻處理領(lǐng)域,該模型展現(xiàn)出顯著技術(shù)優(yōu)勢(shì)。其環(huán)境聲分類精度較前代提升37%,可精準(zhǔn)識(shí)別120種日常場(chǎng)景聲音;多說(shuō)話人分離技術(shù)突破傳統(tǒng)限制,支持同時(shí)處理8路音頻流;在長(zhǎng)達(dá)10小時(shí)的會(huì)議錄音分析中,關(guān)鍵信息提取準(zhǔn)確率達(dá)到92.3%。特別在音頻-視覺(jué)聯(lián)合推理任務(wù)中,通過(guò)跨模態(tài)特征對(duì)齊技術(shù),使聲源定位誤差控制在0.5度以內(nèi),綜合性能超越Gemini 3 Pro模型。
視覺(jué)理解能力方面,MiMo-V2-Omni在多學(xué)科推理任務(wù)中表現(xiàn)突出。醫(yī)學(xué)影像分析準(zhǔn)確率較Claude Opus 4.6提升15個(gè)百分點(diǎn),復(fù)雜電路圖解析速度縮短至0.3秒/張。在金融圖表解讀測(cè)試中,對(duì)K線圖趨勢(shì)預(yù)測(cè)的符合率達(dá)到88.7%,接近Gemini 3 Pro的91.2%水平。視頻處理模塊支持原生音視頻聯(lián)合輸入,通過(guò)時(shí)空注意力機(jī)制實(shí)現(xiàn)場(chǎng)景連續(xù)性理解,在未來(lái)事件推理任務(wù)中取得行業(yè)領(lǐng)先的F1分?jǐn)?shù)。
智能體交互能力驗(yàn)證顯示,該模型在Browser Use場(chǎng)景中達(dá)成97.3%的任務(wù)完成率。通過(guò)與OpenClaw框架深度集成,可自主完成商品比價(jià)、客服對(duì)話及在線支付等12類電商操作。在辦公場(chǎng)景中,與WPS Office的協(xié)同工作展現(xiàn)強(qiáng)大生產(chǎn)力:文檔生成速度達(dá)每分鐘1200字,Excel公式自動(dòng)生成準(zhǔn)確率94.6%,PPT排版符合專業(yè)設(shè)計(jì)規(guī)范的比例超過(guò)92%。這些能力使其在真實(shí)數(shù)字環(huán)境交互評(píng)測(cè)中,關(guān)鍵指標(biāo)與Gemini 3 Pro持平。
商業(yè)應(yīng)用層面,小米同步開(kāi)放API服務(wù)接口,支持256K長(zhǎng)文本處理,定價(jià)策略采取差異化模式:輸入端每百萬(wàn)tokens收費(fèi)0.4元,輸出端收費(fèi)2元。為推動(dòng)生態(tài)建設(shè),聯(lián)合OpenClaw等五大開(kāi)發(fā)框架啟動(dòng)"星火計(jì)劃",向全球開(kāi)發(fā)者提供7×24小時(shí)免費(fèi)接口服務(wù),首批開(kāi)放1000萬(wàn)tokens額度。該舉措已吸引超過(guò)2.3萬(wàn)開(kāi)發(fā)者注冊(cè),日均調(diào)用量突破500萬(wàn)次,在OpenRouter平臺(tái)匿名測(cè)試期間,相關(guān)模型在PinchBench榜單持續(xù)領(lǐng)跑。









