科技圈近日因馬斯克的一條社交平臺評論掀起波瀾。這位以直言不諱著稱的AI領域意見領袖,罕見地對一家中國初創企業的技術成果給予公開肯定。被點贊的并非某款熱門產品,而是一篇關于深度學習架構革新的學術論文,其核心突破直指現代大模型的基礎組件。
引發關注的論文出自月之暗面公司Kimi團隊,該研究提出用新型注意力機制替代Transformer架構中沿用近十年的殘差連接。傳統設計通過將每層輸出與輸入簡單相加的方式傳遞信息,這種"平等加權"模式雖能維持深層網絡訓練穩定性,卻導致早期信息隨層數增加被稀釋。研究團隊將其類比為微信群聊:所有成員發言權重相同,群主需逐條閱讀才能掌握全貌,重要信息極易被淹沒。
針對這一缺陷,研究團隊設計了分階段解決方案。初期嘗試的"全注意力殘差"方案雖能實現動態權重分配,卻因需要存儲所有層輸出導致顯存占用激增。經過優化后的"塊注意力殘差"將網絡劃分為8個模塊,模塊間采用注意力機制選擇性聚合信息,使內存占用降低90%以上。實驗數據顯示,該設計在保持推理延遲增加不足2%的同時,使模型性能達到等效1.25倍計算量的傳統架構水平。
這項突破在學術界引發連鎖反應。論文通過結構化矩陣分析證明,自2015年ResNet提出殘差連接以來,包括Highway Networks在內的所有改進方案本質上都是線性注意力的變體。Kimi團隊的方案首次在深度維度引入非線性注意力機制,為解決"PreNorm稀釋"問題提供了理論依據。測試表明,采用新架構的480億參數模型在科學問答、數學推理等任務中全面超越基線版本,各層輸出幅度和梯度分布更趨均衡。
馬斯克的點贊恰逢月之暗面融資關鍵期。這家成立僅三年的企業正以驚人速度擴張:2025年底完成C輪融資后估值達43億美元,次年2月C+輪融資后突破百億美元,3月中旬估值已飆升至180億美元。其主力產品Kimi K2.5模型發布首月收入即超2025全年總和,個人訂閱用戶支付訂單數連續兩月環比增長超百倍,躋身全球支付平臺Stripe榜單前十。
高速發展伴隨爭議。公司近期推出的Kimi Claw云端部署服務因數據安全設計引發OpenClaw創始人彼得·斯坦伯格公開質疑。該產品將用戶數據傳輸至月之暗面服務器進行處理,與OpenClaw"本地優先"的設計理念形成直接沖突。斯坦伯格在社交平臺指出,安全文檔未作為強制閱讀項展示給用戶,這種做法可能增加數據泄露風險。受此影響,部分海外技術社區用戶表示將暫緩使用該服務。











