在人工智能Agent模型迅猛發(fā)展的當(dāng)下,如何高效處理超長文本成為行業(yè)核心挑戰(zhàn)。這些模型不僅需要精準(zhǔn)檢索長上下文中的關(guān)鍵信息,還要在多輪推理中保持高速響應(yīng),計(jì)算成本與效率的平衡成為技術(shù)突破的關(guān)鍵方向。針對(duì)這一痛點(diǎn),小米MiMo團(tuán)隊(duì)近日推出HySparse混合稀疏注意力架構(gòu),通過創(chuàng)新設(shè)計(jì)實(shí)現(xiàn)了性能與效率的雙重優(yōu)化。
該架構(gòu)采用"極少量全注意力層+多層稀疏注意力層"的組合模式,在800億參數(shù)規(guī)模的MoE模型實(shí)驗(yàn)中,僅保留5層全注意力層即可維持模型性能,同時(shí)將KV緩存存儲(chǔ)需求壓縮至原來的1/11。這種設(shè)計(jì)突破了傳統(tǒng)密集注意力機(jī)制對(duì)計(jì)算資源的依賴,在RULER長文測(cè)試中,即使大幅減少全注意力層數(shù)量,模型仍能穩(wěn)定捕捉長距離依賴關(guān)系,展現(xiàn)出混合結(jié)構(gòu)的獨(dú)特優(yōu)勢(shì)。
技術(shù)實(shí)現(xiàn)層面,HySparse引入hybrid block模塊化設(shè)計(jì),每個(gè)模塊由1層全注意力層與N層稀疏注意力層構(gòu)成。其核心創(chuàng)新在于稀疏層不再獨(dú)立計(jì)算token重要性,而是直接復(fù)用全注意力層生成的KV緩存和關(guān)鍵token索引。這種設(shè)計(jì)充分利用了全注意力層在計(jì)算過程中自然產(chǎn)生的中間結(jié)果,避免了重復(fù)計(jì)算帶來的資源消耗,在保持性能的同時(shí)顯著降低了內(nèi)存占用。
相較于前代Hybrid SWA結(jié)構(gòu),新架構(gòu)通過引入全局token信息補(bǔ)充機(jī)制,進(jìn)一步優(yōu)化了注意力分布。實(shí)驗(yàn)數(shù)據(jù)顯示,在70億參數(shù)密集模型和800億參數(shù)混合專家模型上,HySparse均帶來可觀測(cè)的性能提升。特別是在處理超長序列時(shí),其稀疏層通過共享全注意力層的關(guān)鍵信息,既保證了重要上下文的完整保留,又通過稀疏計(jì)算降低了整體開銷。
該技術(shù)的突破為Agent應(yīng)用落地提供了重要支撐。在需要實(shí)時(shí)處理海量文本的場(chǎng)景中,HySparse架構(gòu)既能滿足模型對(duì)長上下文的理解需求,又能通過降低計(jì)算復(fù)雜度提升響應(yīng)速度。研究團(tuán)隊(duì)透露,后續(xù)將探索在更大規(guī)模模型上驗(yàn)證架構(gòu)極限,并嘗試進(jìn)一步減少全注意力層數(shù)量,推動(dòng)超長文本處理效率邁向新臺(tái)階。








