在人工智能領域,兩位知名創業者——DeepSeek創始人梁文鋒與月之暗面創始人楊植麟,近期因技術路線的高度重合引發關注。2025年以來,兩人已四次在核心技術創新上“不謀而合”,最新一次交鋒聚焦于視覺理解能力的突破。
1月27日,月之暗面推出新一代模型Kimi K2.5,其核心升級在于強化視覺理解功能。該模型可解析用戶上傳的圖片與視頻內容,并據此完成編程或問題解答。同日,DeepSeek上線OCR-2模型,通過獨創的“視覺因果流”機制,顛覆傳統圖像掃描方式,使模型能根據語義邏輯動態調整閱讀順序,更接近人類視覺處理模式。
技術路徑的趨同并非偶然。行業分析指出,視覺理解能力是當前多模態模型發展的關鍵瓶頸。根據第三方測評報告,現有模型在醫療影像分析、自動駕駛等復雜場景中表現欠佳,圖文信息融合準確率不足65%。突破這一瓶頸意味著大模型將從單一語言交互向全場景應用跨越,為商業化落地開辟新路徑。
月之暗面的解決方案側重工程化落地。K2.5采用原生多模態架構,通過15萬億token的聯合預訓練構建視覺智能體系統。該模型將視覺編碼與編程能力深度整合,支持非技術人員通過截圖錄屏快速生成應用原型。配套推出的Kimi Code工具鏈,可無縫集成至主流開發環境,實現技能包的自動遷移與工作流重組。
DeepSeek則選擇從技術源頭創新。其OCR-2模型替換傳統CLIP編碼器,引入具備因果推理能力的DeepEncoder V2架構。該設計使模型能自主識別圖像中的關鍵信息節點,在處理長文本圖像時效率提升3倍以上。測試數據顯示,面對貼有干擾標識的車輛圖片,OCR-2的識別準確率較前代模型提高42%。
雙方在注意力機制優化領域也展開激烈競爭。2月18日,梁文鋒團隊提出NSA架構,通過分層壓縮與動態窗口技術降低長上下文處理算力消耗;楊植麟團隊則發布MoBA架構,利用專家混合模型實現注意力模式的自主切換。兩種方案雖路徑不同,但均將長文本處理效率提升了50%以上。
數學推理領域同樣出現技術路線重合。4月,DeepSeek推出具備自驗證能力的DeepSeek-Prover-V2模型,月之暗面隨即上線采用相同核心機制的專項模型。這種巧合背后,是雙方對AI在科研、金融等領域落地價值的共同判斷——數學推理能力直接決定模型處理復雜任務的上限。
值得關注的是,月之暗面在K2.5中首次實現Agent集群的規模化應用。該模型可動態創建上百個子智能體,通過并行處理將任務執行效率提升4.5倍。在演示案例中,系統僅用3小時就完成40篇學術論文的綜述生成,較單智能體模式提速6倍。為實現這一突破,團隊開發了PARL訓練框架,通過分階段獎勵機制解決多智能體協同難題。
行業觀察者指出,國內大模型在視覺理解領域仍落后于海外頭部企業。測試顯示,主流模型在處理貼有誤導標識的圖像時,誤判率高達37%。K2.5與OCR-2的相繼發布,標志著國內團隊開始構建差異化競爭優勢。月之暗面聯創吳育昕透露,下一代模型將重點優化多智能體間的通信協議,進一步降低并行計算帶來的上下文干擾。









