在Agent模型與應用迅猛發展的當下,如何精準且高效地處理超長文本,已成為大模型領域亟待攻克的關鍵難題。Agent不僅要能在超長上下文中完成穩定的檢索、推理以及多輪規劃任務,還需在推理階段保持足夠快的響應速度。此時,最大的挑戰已從“能否計算”轉變為“能否算得起”。
面對這一挑戰,小米MiMo大模型團隊推出了HySparse架構,這是一種專為Agent時代打造的混合稀疏注意力架構。該架構采用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”的核心設計理念,旨在實現效果與效率的完美平衡。
在多項通用、數學、代碼以及中文評測中,HySparse架構展現出了卓越的性能。無論是7B Dense規模還是80B MoE規模,HySparse均能為模型帶來顯著提升。以80B - A3B MoE模型實驗為例,在總共49層的模型中,HySparse僅保留5層Full Attention,卻依然能夠保持甚至提升模型的整體能力。同時,KV Cache存儲降低至原來的1/11,真正做到了在保證效果的同時大幅提升效率。
RULER長文測試的結果進一步證明了HySparse架構的優勢。即便將Full Attention層壓縮到極少數,該架構也能穩定地保持對長距離關鍵信息的訪問能力,充分彰顯了其混合稀疏結構的獨特魅力。
HySparse架構的創新之處在于其采用了hybrid block結構。每個hybrid block由1層Full Attention和N層Sparse Attention組成。在hybrid block內部,Sparse Attention層不再獨立進行token選擇和維護全量KV,而是直接復用前置Full Attention層生成的重要token索引和KV Cache。這一設計背后的邏輯在于,Full Attention在完成自身計算的同時,已經生成了KV Cache,并且計算出了最準確的token重要性信息,后續的N個Sparse Attention層自然可以直接復用這些信息。
可以認為,HySparse架構是在MiMo - V2 - Flash的Hybrid SWA結構基礎上進行的優化升級。它為SWA增加了全局的、更重要的token信息補充,這一改進不僅提升了模型性能,而且沒有增加KV Cache存儲,也沒有顯著增加計算開銷。
目前,小米MiMo團隊已計劃在更大規模的模型上進一步驗證HySparse架構的極限和潛力。同時,團隊還將持續探索降低Full Attention層數量的可能性,力求讓超長上下文的處理變得更加高效。HySparse架構為Agent時代的超長文本處理提供了高效精準的技術解決方案,也為大模型高效注意力結構的研究與落地提供了全新的參考范例。












