當(dāng)空氣炸鍋發(fā)出“叮”的一聲提示音,還沒等你反應(yīng)過來,一個AI聲音搶先說道:“好了,它已經(jīng)叮了。”這不是科幻電影里的場景,而是面壁智能最新開源的全模態(tài)模型MiniCPM-o4.5帶來的真實體驗。這款模型突破了傳統(tǒng)AI“一問一答”的交互模式,實現(xiàn)了邊看、邊聽、主動說的全新能力。
在廚房場景中,只需將手機放置一旁,MiniCPM-o4.5就能同時處理視覺和聽覺信息。當(dāng)用戶詢問水果價格時,模型會結(jié)合持續(xù)觀察的貨架變化給出實時回答;在電梯場景中,它能夠識別樓層變化并在到達指定樓層時主動提醒。這種持續(xù)感知能力使其更像一位隨時待命的助手,而非需要反復(fù)喚醒的工具。
該模型的核心突破在于引入全雙工多模態(tài)實時流機制。傳統(tǒng)模型采用串行處理方式,必須完成輸入接收后才能生成輸出,而MiniCPM-o4.5通過并行處理架構(gòu),使視頻/音頻輸入流與語音/文本輸出流同步運行。這種設(shè)計讓模型在說話時仍能接收新指令,甚至能被中途打斷并即時響應(yīng)。
技術(shù)實現(xiàn)層面,研發(fā)團隊對模態(tài)編碼器與解碼器進行流式升級,采用文本與語音token交錯建模技術(shù)提升語音生成穩(wěn)定性。通過時分復(fù)用機制,模型在毫秒級時間線上統(tǒng)一處理多模態(tài)信息,實現(xiàn)高效的流式交互。在對話時機判斷上,模型以1Hz頻率持續(xù)進行語義分析,取代了傳統(tǒng)的語音靜音檢測機制。
實際測試中,模型展現(xiàn)出驚人的臨場反應(yīng)能力。當(dāng)它正在描述畫面中的藍色鴨子時,測試人員突然插入詢問黃色鴨子位置的新指令,模型在完成當(dāng)前句子后立即切換回答。這種即時自由對話能力,標(biāo)志著AI交互從回合制轉(zhuǎn)向連續(xù)實時模式。
在性能基準(zhǔn)測試中,僅9B參數(shù)規(guī)模的MiniCPM-o4.5在全模態(tài)理解、視覺解析、語音克隆等多個維度達到行業(yè)領(lǐng)先水平。其端到端全模態(tài)架構(gòu)通過稠密特征直接連接各模態(tài)組件,使視覺、音頻信息在模型生成輸出的同時持續(xù)更新,這種設(shè)計特別適合需要持續(xù)感知的場景。
這款模型的推出反映了AI技術(shù)的重要轉(zhuǎn)向。傳統(tǒng)問答式AI如同對講機,而MiniCPM-o4.5更像持續(xù)運行的智能體,能夠在感知環(huán)境的同時參與對話。這種特性使其在具身智能、車載助手、復(fù)雜系統(tǒng)控制等領(lǐng)域具有獨特優(yōu)勢,因為這些場景需要AI在動態(tài)環(huán)境中做出實時決策。
作為端側(cè)AI的堅定踐行者,面壁智能將MiniCPM-o4.5定位為賦能終端的基礎(chǔ)模型。公司自2022年成立以來就專注端側(cè)部署,與芯片廠商建立深度協(xié)同機制,在模型訓(xùn)練階段即針對端側(cè)芯片進行優(yōu)化。這種軟硬一體化的研發(fā)模式,解決了隱私保護、延遲控制等云端方案難以克服的痛點。
據(jù)透露,該模型將與面壁計劃年中發(fā)布的AI開發(fā)板松果派配套推出,實現(xiàn)開箱即用的端側(cè)智能硬件開發(fā)。這種模型與硬件的深度適配策略,旨在打通端側(cè)AI落地的最后一公里。面對日益激烈的端側(cè)市場競爭,面壁智能強調(diào)其差異化戰(zhàn)略:專注于端側(cè)領(lǐng)域并將技術(shù)做到極致。
當(dāng)前,手機、汽車、機器人等終端設(shè)備對大模型的需求已從質(zhì)疑轉(zhuǎn)向共識。MiniCPM-o4.5的發(fā)布展示了端側(cè)AI的新可能——通過持續(xù)感知與實時交互,讓智能助手真正融入現(xiàn)實世界的連續(xù)時空。這種技術(shù)演進不僅改變了人機交互方式,更為AI在物理世界的深度應(yīng)用開辟了新路徑。
相關(guān)資源已通過多個平臺開放:GitHub開源代碼庫、HuggingFace模型空間及ModelScope模型庫均提供完整技術(shù)文檔。開發(fā)者可通過專屬體驗鏈接測試全雙工模式與圖文對話功能,親身感受下一代AI交互方式的革新。











