百度近日正式推出并上線了其原生全模態大模型文心5.0正式版,標志著人工智能領域又一項重大技術突破。該模型擁有高達2.4萬億的參數規模,通過原生全模態統一建模技術,實現了對文本、圖像、音頻、視頻等多種信息類型的全面理解與生成能力,為用戶提供了前所未有的交互體驗。
據介紹,與當前業界普遍采用的“后期融合”多模態方案不同,文心5.0采用了統一的自回歸架構進行原生全模態建模。這一創新技術路線將文本、圖像、視頻、音頻等多源數據在同一模型框架內聯合訓練,使得多模態特征能夠在統一架構下充分融合并協同優化,從而實現了原生的全模態統一理解與生成。這一突破不僅提升了模型的理解能力,還極大地增強了其生成內容的多樣性和準確性。
在性能方面,文心5.0同樣表現出色。該模型采用了超大規模混合專家結構,具備超稀疏激活參數,激活參數比低于3%。這一設計在保持模型強大能力的同時,有效提升了推理效率,使得模型在處理復雜任務時更加迅速和高效。文心5.0還基于大規模工具環境合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了模型的智能體和工具調用能力。
在應用層面,文心5.0同樣展現出了巨大的潛力。百度應用模型研發部負責人賈磊在發布會上表示,應用模型的價值在于其在實際場景中的應用效果。為此,百度基于文心基礎大模型構建了矩陣模型和專精模型兩大體系。矩陣模型面向產品級應用和通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型等;而專精模型則面向行業應用和垂直場景,如搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型等。
賈磊還分享了三項令人矚目的技術突破:基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術以及實時交互數字人技術。其中,基于聲音Token的端到端合成大模型通過離散表示定義token,以MoE大語言模型建模韻律,實現了高質量的聲音合成;5分鐘超越真人的直播技術則通過對目標音色的少量采樣和臉譜化妝技術,使合成語音具備直播帶貨所需的情緒、節奏與感染力;而實時交互數字人技術則采用三態Token聯動架構,實現了文本、語音、視頻的流式控制,突破了傳統數字人三個模態串聯的制作模式。
為了推動大模型在產業中的落地應用,百度還推出了千帆平臺這一行業解決方案。千帆平臺產品負責人張婷在發布會上詳細介紹了千帆專為行業落地打造的Agent Infra。該平臺提供了包括文心5.0及全場景150+SOAT模型服務在內的豐富資源,并集成了包括百度AI搜索在內的眾多工具及MCP和Agent工具鏈。結合數據管理和企業級服務,千帆平臺能夠為企業提供全周期、穩定支持多場景業務的運行環境,顯著降低企業Agent創新門檻。目前,千帆平臺上已累計開發超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破千萬次。
隨著全球AI行業的快速發展,AI如何應用于真實世界與行業從而進一步產生價值已成為行業探索的重要方向。作為國內最早發布大模型的企業之一,百度正基于多年積累的技術實力形成以芯片為底座、智能云為平臺框架、以模型支撐各類智能體應用的“芯云模體”全棧自研生態閉環。這一生態閉環的構建不僅為百度在AI領域的持續發展奠定了堅實基礎,也為整個行業的創新與發展提供了有力支撐。












