MiniMax近期發布的M2.7模型引發行業關注,這款被官方定義為“首個深度參與自身迭代的模型”距離前代M2.5的發布僅間隔一個月。在人工智能自我進化成為行業共識的背景下,M2.7通過工程化路徑實現了模型能力的突破,其核心創新點在于構建了完整的Agent Harness系統,將模型研發流程壓縮為自動化循環。
技術評測顯示,M2.7在多項基準測試中表現突出。在SWE Bench Pro代碼修復任務中,該模型在真實代碼庫中的問題定位與修復能力已接近頭部模型水平;VIBE-Pro端到端項目測試中,其從需求到交付的全流程執行能力進入第一梯隊;MM-ClawBench多步驟工具調用測試表明,模型在長流程任務中的穩定性顯著提升。不過在MLE-Bench等復雜推理場景中,其抽象建模能力仍與頂尖模型存在差距。
實際應用測試展現了M2.7的多樣化能力。在家庭群聊模擬場景中,模型同時扮演四位性格迥異的家庭成員,通過獨立調用子模型維持角色一致性,成功處理了角色關系互動與話題銜接。當用戶發送錯誤指令導致API調用失敗時,模型能自主診斷并修復程序漏洞,最終實現自然對話。
編程測試驗證了模型的自主開發能力。在霓虹燈數字時鐘任務中,M2.7僅用5輪交互即完成從需求分析到代碼部署的全流程,展現出高效的執行能力。面對更具挑戰的貪吃蛇游戲開發,模型需要處理畫布渲染、碰撞檢測等12項子任務,雖然過程中出現JSON格式錯誤等自主修正情況,但最終通過25882個token的消耗完成任務,驗證了其復雜系統開發能力。
金融分析測試凸顯了模型的專業應用價值。輸入英偉達財報數據后,M2.7在90分鐘內生成了包含財務模型、風險評估的32頁研究報告,同步產出支持滑塊交互的財務儀表盤和12頁演示文稿。雖然數據獲取環節依賴人工輸入,但模型展現的數據可視化與多格式輸出能力已達到投行初級分析師水平。
值得關注的是,MiniMax同步開源了Agent交互系統OpenRoom的原型代碼。該系統通過Web GUI實現可視化交互,所有界面組件均可通過自然語言指令動態生成。在演示案例中,用戶通過對話即可控制虛擬角色完成環境交互,這種新型交互范式為AI應用開發提供了新思路。
從代碼調試到專業分析,M2.7的測試場景覆蓋了普通用戶到專業人士的需求。當模型不再局限于單次對話輸出,而是作為持續運行的協作伙伴參與完整工作流程時,人工智能的應用邊界正在發生質變。盡管在復雜推理穩定性等方面仍有改進空間,但這種將執行權與決策權部分移交模型的嘗試,正在重新定義人機協作關系。










