近日,中國人工智能公司月之暗面(Moonshot AI)的一項技術突破引發廣泛關注。這項成果不僅因其創新性受到業內認可,更因一位特殊作者的身份引發公眾熱議——年僅17歲的高中生陳廣宇以共同第一作者身份出現在論文作者名單中,與資深研究者并列貢獻。
該成果聚焦大模型底層架構創新,提出"注意力殘差"(Attention Residuals)技術方案。傳統模型普遍采用"殘差連接"機制,即每層計算后直接疊加前序信息,但這種模式在深層網絡中易導致關鍵信息被稀釋。研究團隊通過引入動態選擇機制,使模型能夠自主篩選重要信息,在保持計算效率的同時提升信息傳遞質量。實驗數據顯示,采用該技術的Kimi Linear 48B模型在保持性能的前提下,訓練計算量減少約20%,推理延遲增加不足2%。
論文特別標注前三位作者Guangyu Chen(陳廣宇)、Yu Zhang、Jianlin Su為"同等貢獻"。其中張宇是Kimi模型架構的核心研發人員,蘇劍林則是大模型領域知名學者,其提出的旋轉位置編碼(RoPE)已被多家主流模型采用。這種資深研究者與青年學者并重的合作模式,凸顯了技術突破背后的集體智慧。
這位來自深圳的少年研究者展現出超乎年齡的成熟。在接受采訪時,他反復強調團隊貢獻的重要性:"這項工作涉及模型擴展、基礎設施等多個領域,每個環節都不可或缺。"據其個人網站顯示,陳廣宇近一年來通過研讀經典論文、參與開源項目積累基礎知識,后因技術反思文章獲得硅谷AI公司實習機會,去年11月加入Kimi團隊開展研究。
行業專家指出,該研究為大模型發展提供了新思路。當前主流技術路線多依賴參數規模擴張,而"注意力殘差"方案證明通過優化底層架構同樣能實現性能提升。這種技術路徑的轉變,可能引導未來研究重新關注網絡深度優化等基礎問題。
面對外界關注,陳廣宇始終保持謙遜態度。他在社交平臺分享研究經歷時特別提到:"不要將成就歸功于個人,這背后是整個團隊的努力。"這種超越年齡的認知,讓這位少年研究者展現出獨特的科研氣質。










