2026年2月6日,小米MiMo大模型團(tuán)隊宣布推出HySparse——一種面向 Agent 時代的混合稀疏注意力架構(gòu),創(chuàng)新使用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”核心設(shè)計,為 Agent 時代的超長文本處理提供了高效精準(zhǔn)的技術(shù)解決方案,也為大模型高效注意力結(jié)構(gòu)的研究與落地提供了全新參考。
隨著 Agent 模型與應(yīng)用的爆發(fā)式發(fā)展,精準(zhǔn)高效處理超長文本正在成為模型必不可少的基礎(chǔ)能力。Agent時代的“富貴病”問題,已經(jīng)變得極為突出。Agent 不僅需要在超長上下文中完成穩(wěn)定的檢索、推理與多輪規(guī)劃,還必須在推理階段保持足夠快的響應(yīng)速度,目前最大的挑戰(zhàn)已經(jīng)不只是 “能不能算”,而是 “算不算得起”。
為此,小米MiMo提出了全新的HySparse架構(gòu),以解決上述行業(yè)難題。在多項通用、數(shù)學(xué)、代碼和中文評測中,HySparse 在 7B Dense 和 80B MoE 兩種規(guī)模均帶來穩(wěn)定提升。其中,在總共 49 層的 80B-A3B MoE 模型實(shí)驗中,僅保留 5 層 Full Attention 仍能保持甚至提升模型能力,帶來了接近 10×的 KV Cache 存儲降低,實(shí)現(xiàn)效果與效率的兼顧;RULER 長文測試表明,HySparse 即便將 Full Attention 層壓到極少,也能穩(wěn)定保持長距離關(guān)鍵信息訪問,充分展現(xiàn)了其混合稀疏結(jié)構(gòu)的優(yōu)勢。
HySparse的推出,標(biāo)志著大模型在“能不能算”向“算不算得起”的關(guān)鍵轉(zhuǎn)變中,正邁出重要一步。
作為小米 MiMo 在混合注意力架構(gòu)上的重要技術(shù)迭代,HySparse 是對 MiMo-V2-Flash 的 Hybrid SWA 結(jié)構(gòu)的又一次全新升級。HySparse 可以視為在 Hybrid SWA 的基礎(chǔ)上,為 SWA 增加了全局的、更重要的 token 信息補(bǔ)充,實(shí)現(xiàn) “兼容且互補(bǔ)”。這一改進(jìn)不僅提升了性能,還沒有增加 KV Cache 存儲,也沒有顯著增加計算開銷。
小米MiMo表示,計劃在更大規(guī)模模型上進(jìn)一步驗證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長上下文更高效,并為學(xué)術(shù)界和工業(yè)界在混合稀疏注意力方向的研究提供一些參考和啟發(fā)。











