除夕佳節(jié)之際,科技領(lǐng)域迎來一則重磅消息:阿里在chat.qwen.ai頁面悄然上線了Qwen3.5-Plus與Qwen3.5-397B-A17B兩款全新大語言模型,為新春增添了一抹科技亮色。
據(jù)官方介紹,Qwen3.5 Plus作為Qwen 3.5系列的最新力作,被定位為新一代大語言模型;而Qwen3.5-397B-A17B則擔(dān)當起Qwen3.5開源系列的旗艦角色。這兩款模型均具備強大的文本處理與多模態(tài)任務(wù)處理能力,展現(xiàn)出阿里在人工智能領(lǐng)域的深厚積累。
在模型架構(gòu)上,Qwen3.5實現(xiàn)了全面革新。Qwen3.5-Plus版本總參數(shù)規(guī)模高達3970億,但激活參數(shù)僅為170億。這一設(shè)計使其性能超越了擁有萬億參數(shù)的Qwen3-Max模型,同時部署顯存占用大幅降低60%,推理效率顯著提升,最大推理吞吐量可提升至原來的19倍,為實際應(yīng)用提供了更高效的解決方案。
在各項評測中,Qwen3.5系列模型表現(xiàn)卓越。在MMLU-Pro認知能力評測中,Qwen3.5斬獲87.8分,超越了GPT-5.2;在博士級難題GPQA測評中,以88.4分的成績高于Claude 4.5;在指令遵循IFBench評測中,更是以76.5分的成績刷新了所有模型的紀錄。在通用Agent評測BFCL-V4、搜索Agent評測Browsecomp等基準測試中,Qwen3.5的表現(xiàn)均優(yōu)于Gemini 3 Pro,彰顯出其強大的綜合實力。
Qwen3.5-397B-A17B同樣不負眾望,在推理、編程、智能體能力以及多模態(tài)理解等多個維度的全方位基準評估中均取得優(yōu)異成績。該模型采用創(chuàng)新的混合架構(gòu),將線性注意力(Gated Delta Networks)與稀疏混合專家(MoE)技術(shù)相結(jié)合,在保持強大能力的同時,實現(xiàn)了出色的推理效率。其總參數(shù)量達3970億,但每次前向傳播僅激活170億參數(shù),有效優(yōu)化了速度與成本。該模型對語言與方言的支持從119種擴展至201種,為全球用戶提供了更廣泛、更完善的語言服務(wù)。
在預(yù)訓(xùn)練方面,Qwen3.5從能力、效率與通用性三個維度進行了深入推進。在能力維度,模型在更大規(guī)模的視覺-文本語料上進行訓(xùn)練,并加強了中英文、多語言、STEM與推理數(shù)據(jù)的訓(xùn)練,采用更嚴格的過濾標準,實現(xiàn)了跨代持平的優(yōu)異表現(xiàn),Qwen3.5-397B-A17B與參數(shù)量超過1T的Qwen3-Max-Base表現(xiàn)相當。在效率維度,基于Qwen3-Next架構(gòu),通過更高稀疏度的MoE、Gated DeltaNet + Gated Attention混合注意力、穩(wěn)定性優(yōu)化與多token預(yù)測等技術(shù),在32k/256k上下文長度下,Qwen3.5-397B-A17B的解碼吞吐量分別是Qwen3-Max的8.6倍和19.0倍,且性能相當;同時,其解碼吞吐量也分別是Qwen3-235B-A22B的3.5倍和7.2倍。在通用性維度,通過早期文本-視覺融合與擴展的視覺/STEM/視頻數(shù)據(jù),實現(xiàn)了原生多模態(tài),在相近規(guī)模下優(yōu)于Qwen3-VL;多語言覆蓋從119種增至201種語言/方言,25萬詞表(相比之前的15萬)在多數(shù)語言上帶來了約10–60%的編碼/解碼效率提升。
憑借高效的混合架構(gòu)與原生多模態(tài)推理能力,Qwen3.5為通用數(shù)字智能體的發(fā)展奠定了堅實基礎(chǔ)。據(jù)悉,下一階段的研究重點將從模型規(guī)模轉(zhuǎn)向系統(tǒng)整合,致力于構(gòu)建具備跨會話持久記憶的智能體、面向真實世界交互的具身接口以及自我改進機制,目標是打造能夠長期自主運行、邏輯一致的系統(tǒng),將當前以任務(wù)為邊界的助手升級為可持續(xù)、可信任的伙伴。








