百度近日正式推出并上線了其原生全模態(tài)大模型文心5.0正式版,這一模型以2.4萬億參數(shù)的規(guī)模,成為當(dāng)前全球參數(shù)規(guī)模最大的多模態(tài)大模型之一。與傳統(tǒng)的多模態(tài)方案不同,文心5.0采用原生全模態(tài)統(tǒng)一建模技術(shù),將文本、圖像、視頻和音頻等多源數(shù)據(jù)在同一模型框架內(nèi)聯(lián)合訓(xùn)練,實現(xiàn)了多模態(tài)特征的原生融合與協(xié)同優(yōu)化,從而具備了全模態(tài)理解與生成能力。
在技術(shù)架構(gòu)上,文心5.0引入了超大規(guī)模混合專家結(jié)構(gòu),通過超稀疏激活參數(shù)設(shè)計,將激活參數(shù)比控制在3%以下,既保證了模型的強大能力,又顯著提升了推理效率。該模型還基于大規(guī)模工具環(huán)境合成長程任務(wù)軌跡數(shù)據(jù),并采用端到端多輪強化學(xué)習(xí)訓(xùn)練方法,進一步增強了智能體和工具調(diào)用能力。在權(quán)威基準(zhǔn)評測中,文心5.0的語言與多模態(tài)理解能力已超越Gemini-2.5-Pro、GPT-5-High等國際主流模型,穩(wěn)居全球第一梯隊,其圖像與視頻生成能力也達到垂直領(lǐng)域?qū)>P退健?/p>
百度應(yīng)用模型研發(fā)部負(fù)責(zé)人賈磊在發(fā)布會上強調(diào),模型的價值最終體現(xiàn)在應(yīng)用場景中。他指出,文心5.0的研發(fā)始終圍繞“跑得穩(wěn)、答得對、用得起”的目標(biāo),致力于讓模型在真實場景中發(fā)揮實效。基于這一理念,百度構(gòu)建了矩陣模型和專精模型兩大體系:矩陣模型面向通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型則聚焦行業(yè)應(yīng)用,如搜索閃電專精模型、電商蒸汽機模型、文心數(shù)字人大模型及行業(yè)大模型等。
在技術(shù)突破方面,賈磊分享了三項創(chuàng)新成果。首先是基于聲音Token的端到端合成大模型,該模型通過離散語音token定義、MoE大語言模型韻律建模、flow后處理譜分布描述以及Unet自重構(gòu)特征vocoder等技術(shù),實現(xiàn)了高質(zhì)量聲音合成。其次是5分鐘超越真人的直播技術(shù),通過少量音色采樣、臉譜化妝和韻律模式匹配,使合成語音具備直播帶貨所需的情緒感染力。最后是實時交互數(shù)字人技術(shù),采用三態(tài)Token聯(lián)動架構(gòu),實現(xiàn)文本、語音、視頻的流式控制,并由聲音Token實時驅(qū)動表情與口型,輸出低延遲、高表現(xiàn)力的視頻流,百度羅永浩數(shù)字人即基于此技術(shù)開發(fā)。
為推動大模型在產(chǎn)業(yè)中的落地,百度千帆平臺推出了Agent Infra解決方案。該平臺集成文心5.0及150余個全場景SOAT模型服務(wù),提供百度AI搜索等工具及MCP和Agent工具鏈,并結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù),為企業(yè)構(gòu)建全周期、多場景的業(yè)務(wù)運行環(huán)境。目前,千帆平臺已累計開發(fā)超130萬個Agents,以百度AI搜索為代表的工具日均調(diào)用量突破千萬次。此前,百度的數(shù)字人生成技術(shù)已在直播帶貨等領(lǐng)域廣泛應(yīng)用,2025年羅永浩數(shù)字人直播曾創(chuàng)下行業(yè)紀(jì)錄。
作為國內(nèi)大模型領(lǐng)域的先行者,百度正通過“芯云模體”全棧自研生態(tài)閉環(huán),持續(xù)探索AI賦能行業(yè)的解決方案。這一生態(tài)以芯片為底座、智能云為平臺框架、模型為支撐,覆蓋從底層技術(shù)到上層應(yīng)用的完整鏈條,為AI在真實世界中的落地提供了堅實基礎(chǔ)。當(dāng)前,全球AI行業(yè)正加速進入應(yīng)用深化階段,如何讓AI技術(shù)真正服務(wù)于行業(yè)需求,已成為行業(yè)共同關(guān)注的焦點。








