商湯科技近日宣布開源其最新研發(fā)的多模態(tài)自主推理模型——SenseNova-MARS,該模型同時(shí)推出8B和32B兩個(gè)版本,為人工智能領(lǐng)域帶來了新的突破。作為首個(gè)支持動(dòng)態(tài)視覺推理與圖文搜索深度融合的Agentic VLM模型,SenseNova-MARS在多模態(tài)搜索與推理方面展現(xiàn)出卓越性能,在核心基準(zhǔn)測(cè)試中以69.74分的成績(jī)超越了Gemini-3-Pro和GPT-5.2等知名模型。
SenseNova-MARS的獨(dú)特之處在于其自主規(guī)劃與工具調(diào)用能力。面對(duì)復(fù)雜任務(wù)時(shí),該模型能夠自動(dòng)規(guī)劃解決步驟,調(diào)用圖像裁剪、文本及圖像搜索等工具,形成完整的解決方案閉環(huán)。例如,在識(shí)別賽車服上的微小logo、查詢公司成立年份、匹配車手出生年月并計(jì)算差值的任務(wù)中,模型無需人工干預(yù)即可完成全流程操作。這種能力使AI系統(tǒng)首次具備了真正的"執(zhí)行能力",能夠處理需要多步驟推理和跨模態(tài)信息整合的復(fù)雜場(chǎng)景。
在性能驗(yàn)證方面,SenseNova-MARS在MMSearch、HR-MMSearch、FVQA等多個(gè)權(quán)威基準(zhǔn)測(cè)試中均取得開源模型中的最佳成績(jī),甚至超越了Gemini-3.0-Pro等頂級(jí)閉源模型。該模型在細(xì)節(jié)識(shí)別、信息檢索和邏輯推理三大核心能力上表現(xiàn)突出:其圖像裁剪功能可精準(zhǔn)定位占比不足5%的微小細(xì)節(jié),如賽事照片中的觀眾標(biāo)語或設(shè)備標(biāo)識(shí);圖像搜索能實(shí)時(shí)匹配物體、人物或場(chǎng)景的相關(guān)信息;文本搜索則可秒級(jí)獲取公司成立時(shí)間、行業(yè)數(shù)據(jù)等精準(zhǔn)信息。
實(shí)際應(yīng)用場(chǎng)景中,SenseNova-MARS已展現(xiàn)出強(qiáng)大潛力。在行業(yè)分析領(lǐng)域,該模型可從產(chǎn)品發(fā)布會(huì)照片中自動(dòng)識(shí)別企業(yè)標(biāo)志,快速搜集產(chǎn)品參數(shù)、時(shí)間節(jié)點(diǎn)等關(guān)鍵信息;在賽事報(bào)道方面,模型能通過照片識(shí)別運(yùn)動(dòng)員身份、追溯比賽背景,并補(bǔ)充觀眾反應(yīng)等現(xiàn)場(chǎng)細(xì)節(jié)。更值得關(guān)注的是,該模型可處理超長(zhǎng)步驟的多模態(tài)推理任務(wù),自動(dòng)調(diào)用多種工具驗(yàn)證假設(shè)并形成關(guān)鍵判斷,為科研、金融等需要深度分析的領(lǐng)域提供了新的技術(shù)路徑。










