近日,智譜(02513.HK)宣布推出一款名為GLM-5V-Turbo的多模態Coding基座模型,該模型專為視覺編程領域設計,旨在突破傳統編程對純文本輸入的依賴。通過深度融合視覺與文本處理能力,GLM-5V-Turbo實現了從設計稿、截圖到網頁界面的多模態理解,能夠直接將這些視覺元素轉化為可運行的代碼。
在預訓練階段,研發團隊通過創新架構使模型同時掌握視覺與文本的語義關聯。例如,當輸入一張UI設計圖時,模型不僅能識別按鈕、輸入框等界面元素,還能理解其布局邏輯和交互邏輯,最終生成符合設計規范的完整代碼。這一特性顯著降低了將視覺創意轉化為技術實現的門檻,為設計師與開發者之間的協作提供了新范式。
據技術文檔披露,GLM-5V-Turbo支持多種主流編程語言的代碼生成,包括但不限于Python、Javascript和HTML/CSS。在實測案例中,該模型成功將一張電商網站首頁截圖轉化為包含響應式布局的完整前端代碼,其代碼結構清晰且符合行業最佳實踐。目前,該模型已開放企業級API接口,開發者可通過調用服務實現自動化編程流程。












