研究團(tuán)隊(duì)的核心靈感源于對(duì)網(wǎng)絡(luò)深度與序列時(shí)間維度的對(duì)偶性觀察。傳統(tǒng)殘差連接通過無差別累加各層信息,導(dǎo)致早期特征被稀釋且訓(xùn)練不穩(wěn)定。而Attention Residuals技術(shù)創(chuàng)造性地讓當(dāng)前層動(dòng)態(tài)選擇需要關(guān)注的前置層信息,通過可學(xué)習(xí)的偽查詢向量與前層輸出構(gòu)建注意力機(jī)制,實(shí)現(xiàn)了信息的選擇性聚合。這種設(shè)計(jì)使模型在保持推理延遲增加不到2%的同時(shí),訓(xùn)練效率提升了25%。
為解決計(jì)算復(fù)雜度隨層數(shù)平方增長(zhǎng)的問題,研究團(tuán)隊(duì)提出了Block AttnRes分塊壓縮方案。該方案將連續(xù)層劃分為塊,每塊結(jié)束時(shí)生成摘要向量,后續(xù)層僅需關(guān)注塊間表征與塊內(nèi)實(shí)時(shí)輸出。這種創(chuàng)新使注意力計(jì)算復(fù)雜度從O(L2)降至O(L·B),在保持性能的同時(shí)顯著提升了計(jì)算效率。團(tuán)隊(duì)還通過緩存式流水線通信等工程優(yōu)化,進(jìn)一步增強(qiáng)了技術(shù)的實(shí)用性。
這項(xiàng)研究的共同第一作者之一陳廣宇的成長(zhǎng)軌跡頗具傳奇色彩。這位北京中學(xué)生通過黑客松活動(dòng)嶄露頭角,其設(shè)計(jì)的"ThirdArm"機(jī)械輔助手項(xiàng)目獲得評(píng)委董科含的關(guān)注。在導(dǎo)師指導(dǎo)下,他系統(tǒng)學(xué)習(xí)了Transformer架構(gòu)等底層技術(shù),并通過研讀經(jīng)典論文、參與GitHub開源項(xiàng)目逐步建立認(rèn)知。這種從興趣到專業(yè)能力的蛻變,最終將他帶入了Kimi團(tuán)隊(duì)的核心研發(fā)圈。
在Kimi Linear架構(gòu)的驗(yàn)證中,Attention Residuals技術(shù)展現(xiàn)了顯著優(yōu)勢(shì)。同等計(jì)算預(yù)算下,采用該技術(shù)的模型在數(shù)學(xué)推理、代碼生成等任務(wù)中表現(xiàn)優(yōu)異,多語言理解的一致性也得到改善。更值得關(guān)注的是,這項(xiàng)技術(shù)可作為殘差連接的直接替代方案,無需修改網(wǎng)絡(luò)其他部分即可實(shí)現(xiàn)性能提升。研究團(tuán)隊(duì)將其視為"時(shí)間-深度對(duì)偶性"的重要實(shí)踐,認(rèn)為深度神經(jīng)網(wǎng)絡(luò)的層處理與循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)間步處理本質(zhì)相通。
陳廣宇的學(xué)術(shù)經(jīng)歷折射出新一代科研工作者的成長(zhǎng)路徑。從經(jīng)營(yíng)跨境電商到專注底層技術(shù)研究,他的轉(zhuǎn)變始于對(duì)Transformer架構(gòu)的深入探索。在硅谷實(shí)習(xí)期間,他參與了涉及144張H100顯卡的探索性項(xiàng)目,并在CEO指導(dǎo)下延伸至運(yùn)營(yíng)層面工作。這種從理論到實(shí)踐的完整訓(xùn)練,使他能夠在Kimi團(tuán)隊(duì)中迅速承擔(dān)核心研發(fā)任務(wù)。目前,該技術(shù)的完整實(shí)現(xiàn)已開源,為AI社區(qū)提供了新的研究范式。












