百度近日宣布,其自主研發的原生全模態大模型文心5.0正式版已全面上線。這款模型擁有2.4萬億參數規模,通過原生全模態統一建模技術,實現了文本、圖像、音頻、視頻等多類型信息的無縫輸入與輸出。目前,個人用戶可通過文心APP及官網直接體驗,企業與開發者則可通過百度千帆平臺進行調用,覆蓋了從消費級到產業級的廣泛應用場景。
在權威評測中,文心5.0正式版展現出顯著優勢。其語言與多模態理解能力在40余項國際基準測試中超越Gemini-2.5-Pro、GPT-5-High等同類模型,穩居全球第一梯隊;圖像與視頻生成能力則與垂直領域專業模型持平,整體技術指標達到國際領先水平。這一成果標志著中國在多模態大模型領域實現了底層技術的自主突破。
據百度集團副總裁吳甜介紹,文心5.0的技術路線與行業常見的“后期融合”方案截然不同。該模型采用統一的自回歸架構,將文本、圖像、視頻、音頻等多源數據置于同一框架下聯合訓練,使不同模態的特征在底層實現深度融合與協同優化。這種原生全模態建模方式,從根本上解決了多模態信息處理中的割裂問題,為復雜場景的智能應用提供了技術基礎。
在效率優化方面,文心5.0引入超大規模混合專家結構,通過超稀疏激活參數設計,將激活參數比例控制在3%以下。這一創新在保持模型強大性能的同時,顯著提升了推理效率,降低了計算資源消耗。模型還基于大規模工具環境合成多輪任務軌跡數據,結合思維鏈與行動鏈的端到端強化學習訓練,大幅增強了智能體決策與工具調用能力。
實際應用場景中,文心5.0的能力突破得到充分驗證。在代碼生成任務中,模型僅需觀看一段復刻“活了么”App的教程視頻,即可自動拆解操作步驟、理解交互邏輯,并直接生成可運行的前端代碼;在創意寫作領域,模型能模擬《紅樓夢》中王熙鳳的語言風格,創作出融合古典語境與現代商業邏輯的“大觀園資產重組方案”,展現出跨領域情境理解與內容生成能力。
為持續提升模型專業性與可靠性,百度同步推進“文心導師”計劃。目前,該計劃已匯聚835位來自科技、金融、文化、教育、醫療、能源等十余個重點行業,以及數理化生文史哲等學科的專家。導師團隊通過知識傳授、鑒賞評價、專業校準等方式,對模型進行針對性指導,助力其在邏輯嚴謹性、專業深度、創意質量及價值觀對齊等方面實現持續優化。
此前,文心5.0系列模型已多次在國際競技場嶄露頭角。自2025年11月發布Preview版本以來,該模型在LMArena全球大模型競技場中屢創佳績,多次登頂文本榜與視覺理解榜國內第一,并躋身國際第一梯隊。最新數據顯示,1月15日文心5.0以1460分位列文本榜國內首位、全球第八,超越GPT-5.1-High、Gemini-2.5-Pro等多款主流模型。
行業分析認為,文心5.0正式版的推出,不僅驗證了原生全模態技術路線的成熟度與實用性,更彰顯了中國AI企業在多模態大模型領域的自主創新能力。這一突破有望進一步鞏固中國在全球AI產業競爭中的技術優勢,為智能經濟時代的產業升級提供核心動力。













