月之暗面核心團隊近日在社交媒體平臺Reddit上舉辦了一場長達三小時的有問必答活動,三位聯(lián)合創(chuàng)始人就模型技術(shù)、算力儲備和未來規(guī)劃等關(guān)鍵問題與全球網(wǎng)友展開深入交流。針對Kimi K2.5模型偶爾自稱為Claude的現(xiàn)象,CEO楊植麟解釋稱這是由于預(yù)訓(xùn)練階段對最新編程數(shù)據(jù)進行了上采樣處理,導(dǎo)致模型對"Claude"這個特定詞元的響應(yīng)概率異常升高,實際上K2.5在多項基準測試中已展現(xiàn)出超越Claude的性能表現(xiàn)。
在技術(shù)細節(jié)方面,團隊透露Kimi K2.5通過智能體蜂群技術(shù)實現(xiàn)了對100個子智能體的高效調(diào)度,任務(wù)執(zhí)行效率提升最高達450%。該模型采用約470:1的參數(shù)比例,雖然存在一定程度的計算資源"浪費",但這是為了在模型規(guī)模和推理效率之間取得平衡。針對模型幻覺問題,算法負責人吳育昕表示已通過提升數(shù)據(jù)質(zhì)量和優(yōu)化獎勵機制進行改善,未來仍需探索更多解決方案。
關(guān)于算力儲備的尖銳提問,團隊坦言GPU數(shù)量差距并未縮小,但強調(diào)創(chuàng)新往往誕生于資源約束之中。周昕宇指出,可用算力受多種因素影響,公司通過獨特的組織文化和技術(shù)路線來應(yīng)對挑戰(zhàn)。這種文化體現(xiàn)在對失敗研究的包容態(tài)度——團隊會深入討論所有實驗結(jié)果,即使三個月未見明顯性能提升也會客觀評估是否繼續(xù)投入。
對于備受期待的Kimi K3,楊植麟透露將在Kimi Linear架構(gòu)基礎(chǔ)上進行多項優(yōu)化,雖然未承諾具體性能提升倍數(shù),但堅信新模型將帶來顯著進步。團隊正在探索持續(xù)學(xué)習(xí)技術(shù)以增強模型自主性,同時保持對線性注意力機制的研究投入。針對模型個性變化的問題,吳育昕承認這是當前面臨的棘手挑戰(zhàn),正在努力平衡性能提升與用戶個性化需求。
在多模態(tài)發(fā)展方面,Kimi Code憑借視頻輸入等獨有功能形成差異化優(yōu)勢。團隊認為文本和視覺能力的提升可以相互促進,強大的文本基座對視覺性能至關(guān)重要。對于在線學(xué)習(xí)計劃,周昕宇表示這是提升Agentic模型自主性的關(guān)鍵方向,相關(guān)研究正在積極推進中。雖然目前沒有推出原生音頻輸入模型的計劃,但團隊會持續(xù)關(guān)注技術(shù)發(fā)展趨勢。
這場問答活動共回應(yīng)了40余個問題,涵蓋從技術(shù)架構(gòu)到商業(yè)策略的多個層面。團隊強調(diào)始終秉持"把事情真正做成并落地"的價值觀,這種理念體現(xiàn)在對基礎(chǔ)研究的長期投入和對工程實現(xiàn)的極致追求。通過持續(xù)優(yōu)化訓(xùn)練方法和基礎(chǔ)設(shè)施,月之暗面正在探索通用人工智能發(fā)展的新路徑,其技術(shù)路線選擇和問題解決思路為行業(yè)提供了重要參考。




















