在人工智能領域,AI Agent正逐步從概念走向實際應用,成為推動行業創新的重要力量。Kimi作為這一領域的先行者,通過將Agent能力融入具體產品,不僅推出了“深度研究”、“Agentic PPT”、“OK Computer”及“數據分析”等多項創新技能,更在C端業務中成功承載了數以萬計的并發請求,展現了強大的技術實力和市場潛力。
面對如此龐大的用戶需求,Kimi在基礎設施層面進行了深度布局。為了確保每一次請求都能得到快速響應,Kimi與阿里云展開了深度合作,以阿里云容器服務Kubernetes版ACK和阿里云容器計算服務ACS的Agent Sandbox為核心,構建了一套端到端的Agent Infra基礎設施體系。這一體系不僅為Kimi的Agent產品提供了強大的算力支持,更在彈性、成本、穩定性等方面實現了全面優化。
AI Agent的落地并非易事,它要求系統能夠理解復雜的用戶意圖,并自主分解任務、調用工具、執行并完成一系列多步驟工作流。在“深度研究”和“OK Computer”等場景中,Kimi的Agent通過自然語言指令,驅動虛擬計算機沙箱環境自動化執行復雜任務流,包括工具調用、聯網搜索、代碼調測等。這一過程中,系統需要同時處理數以萬計的用戶請求,每個請求都可能觸發一次或多次Agent的復雜推理和工具調用,對系統的即時響應能力和資源分配效率提出了極高要求。
為了應對這些挑戰,Kimi在沙箱環境的彈性能力與啟動速度上進行了重點突破。傳統的虛擬機或容器部署方式啟動時間較長,對于需要即時響應的Agent服務而言難以接受。為此,Kimi采用了ACS Agent Sandbox技術,該技術基于輕量級虛擬機(MicroVM)技術,將虛擬化開銷降低90%,實現了大規模并發彈性下的秒級啟動。同時,通過預測預調度、資源復用等手段,進一步節省了沙箱環境的調度、創建時間,確保了系統的高效運行。
除了即時響應能力外,Kimi還注重沙箱環境的隔離性與安全性。由于Agent會執行由大模型生成的未經人工驗證的代碼,沙箱必須提供強隔離能力,防止其對其他租戶、宿主機或其他關鍵系統造成影響。為此,Kimi采用了硬件級別的計算安全隔離環境,結合Network Policy、Fluid等能力增強,提供了Pod級別網絡、存儲的端到端安全運行環境。
在滿足即時響應和安全隔離的同時,Kimi還面臨著如何保持沙箱狀態連續性以及應對大規模并發帶來的調度壓力等挑戰。對于需要長時間運行的Agent任務,沙箱需要具備靈活的狀態保持與恢復能力,以便在任務暫停后能夠快速恢復到之前的執行點。為此,Kimi引入了實例休眠及喚醒能力,支持沙箱環境的一鍵休眠和快速喚醒,確保了任務的連續性。同時,通過構建常態算力與Serverless算力的分級調度體系,Kimi成功應對了大規模并發帶來的系統穩定性問題,實現了容量確定性、彈性速度與成本優化的平衡。
在成本控制方面,Kimi同樣表現出色。通過合理的資源調度策略,Kimi實現了按需彈性進行穩定的資源調度,以最低的成本支撐了海量并發。特別是在使用ACS Agent Sandbox的過程中,Kimi通過內存狀態的持久化技術,在休眠期間釋放了沙箱的CPU和內存資源,降低了休眠期間的資源成本。同時,支持數秒快速喚醒Pod的功能,使得Kimi在成本與體驗之間找到了最佳平衡點。
隨著用戶規模的擴大和業務需求的不斷升級,Kimi對基礎設施的要求也越來越高。為了確保在如此大規模的負載下集群依然能夠穩定運行,Kimi對Kubernetes的核心組件進行了深度優化和加固。在調度器層面通過參數調整提高了隊列處理深度以及單個Pod的處理速度;在API Server層面則通過全鏈路端到端參數優化和管控組件動態彈性擴容等手段,滿足了Agent沙箱秒級彈性、高并發API訪問的訴求。
高質量的搜索和記憶服務是構建復雜Agent的關鍵基礎。為此,Kimi借助阿里云多模數據庫Lindorm構建了具備高效檢索和海量存儲能力的記憶與搜索模塊。Lindorm作為一個多模數據庫,集成了寬表引擎、搜索引擎、向量引擎、AI引擎四大核心組件,數據在內部自動流轉無需自建同步鏈路。這一特點為Kimi快速構建Agent背后的AI搜索基礎設施提供了有力支持。








