印度人工智能實(shí)驗(yàn)室Sarvam在近日舉行的人工智能影響力峰會(huì)上,正式推出兩款自主研發(fā)的最新一代大語(yǔ)言模型。這兩款模型基于混合專家(MoE)架構(gòu)打造,采用從底層架構(gòu)到訓(xùn)練框架的完全自主技術(shù)路線,標(biāo)志著印度在生成式AI領(lǐng)域取得重要突破。
據(jù)技術(shù)白皮書(shū)披露,此次發(fā)布的模型包含300億參數(shù)的輕量級(jí)版本和1050億參數(shù)的旗艦版本。輕量級(jí)模型采用30B-A1B架構(gòu)設(shè)計(jì),預(yù)訓(xùn)練數(shù)據(jù)規(guī)模達(dá)16萬(wàn)億token,支持32K上下文窗口,特別針對(duì)實(shí)時(shí)交互場(chǎng)景進(jìn)行優(yōu)化,在保持低延遲的同時(shí)實(shí)現(xiàn)高效推理。該模型已通過(guò)多項(xiàng)基準(zhǔn)測(cè)試驗(yàn)證,在對(duì)話響應(yīng)速度和資源占用率方面表現(xiàn)突出。
旗艦級(jí)105B-A9B模型則展現(xiàn)出更強(qiáng)大的處理能力,其128K上下文窗口可支持超長(zhǎng)文本分析,在復(fù)雜邏輯推理和多輪對(duì)話任務(wù)中表現(xiàn)優(yōu)異。實(shí)驗(yàn)室負(fù)責(zé)人特別強(qiáng)調(diào),該模型在印度本土語(yǔ)言處理方面實(shí)現(xiàn)重大突破,在包含12種印度官方語(yǔ)言的綜合測(cè)試集中,準(zhǔn)確率較國(guó)際主流模型提升17.6%,特別是在方言識(shí)別和語(yǔ)義理解層面表現(xiàn)突出。
在性能對(duì)比測(cè)試中,105B-A9B模型展現(xiàn)出顯著優(yōu)勢(shì)。針對(duì)印度市場(chǎng)定制的評(píng)估基準(zhǔn)顯示,該模型在本地化任務(wù)中的表現(xiàn)超越谷歌Gemini 2.5 Flash等國(guó)際競(jìng)品。在通用能力測(cè)試中,其數(shù)學(xué)推理和代碼生成能力在多數(shù)指標(biāo)上領(lǐng)先DeepSeek R1,在多模態(tài)理解等部分領(lǐng)域與Gemini Flash形成有力競(jìng)爭(zhēng)。實(shí)驗(yàn)室透露,模型訓(xùn)練過(guò)程中特別強(qiáng)化了對(duì)南亞文化語(yǔ)境的理解,在處理宗教典籍、歷史文獻(xiàn)等垂直領(lǐng)域時(shí)具有獨(dú)特優(yōu)勢(shì)。
開(kāi)發(fā)團(tuán)隊(duì)宣布,兩款模型將采取階梯式開(kāi)放策略。即日起在Hugging Face平臺(tái)開(kāi)放基礎(chǔ)權(quán)重下載,供全球開(kāi)發(fā)者進(jìn)行本地化微調(diào)。三月中旬將推出API接口服務(wù),支持企業(yè)級(jí)用戶進(jìn)行商業(yè)部署。配套的可視化儀表盤系統(tǒng)也在開(kāi)發(fā)中,該系統(tǒng)將提供模型訓(xùn)練監(jiān)控、性能評(píng)估等全流程管理功能,預(yù)計(jì)二季度正式上線。










