印度AI實驗室Sarvam在近日舉辦的人工智能影響力峰會上,正式推出兩款自主研發(fā)的最新一代MoE架構(gòu)大語言模型。這兩款模型以全棧自研技術(shù)打造,標(biāo)志著印度在生成式AI領(lǐng)域取得重要突破。研發(fā)團(tuán)隊透露,模型代碼和權(quán)重將于近期在Hugging Face平臺開源,配套的API接口與可視化儀表盤功能也在緊鑼密鼓籌備中。
針對不同應(yīng)用場景,兩款模型采用差異化設(shè)計策略。輕量級型號采用300億參數(shù)激活、10億參數(shù)總量的精簡架構(gòu),預(yù)訓(xùn)練數(shù)據(jù)規(guī)模達(dá)16萬億token,支持32K上下文窗口,特別優(yōu)化了實時交互場景的響應(yīng)速度。旗艦型號則配備1050億參數(shù)激活、90億參數(shù)總量的超大規(guī)模架構(gòu),支持128K超長上下文窗口,能夠處理復(fù)雜推理任務(wù)和跨領(lǐng)域知識整合需求。
在性能評估方面,Sarvam實驗室公布的測試數(shù)據(jù)顯示,旗艦?zāi)P驮谟《缺就琳Z言基準(zhǔn)測試中全面超越谷歌Gemini 2.5 Flash等國際主流模型。針對多語言混合場景的跨模態(tài)任務(wù),該模型在多數(shù)評估指標(biāo)上領(lǐng)先DeepSeek R1,在特定垂直領(lǐng)域甚至達(dá)到Gemini Flash的1.3倍性能。研發(fā)團(tuán)隊強調(diào),模型特別針對南亞語言特征進(jìn)行優(yōu)化,在方言處理和語境理解方面具有獨特優(yōu)勢。










