滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

北京智源研究院Emu3模型登Nature：用“下一詞預(yù)測”解鎖多模態(tài)智能新路徑

時間：2026-02-07 11:37:06 來源：快訊編輯：快訊 IP：北京 發(fā)表評論無障礙通道

近日，國際頂級學(xué)術(shù)期刊《Nature》發(fā)表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模態(tài)大模型，以顛覆性的技術(shù)路徑在AI領(lǐng)域引發(fā)廣泛關(guān)注。該模型通過“統(tǒng)一預(yù)測下一個符號”的極簡設(shè)計，首次實現(xiàn)了圖像生成、視頻理解、語言推理等跨模態(tài)任務(wù)的高水平協(xié)同，為通用人工智能（AGI）的發(fā)展開辟了新路徑。

傳統(tǒng)多模態(tài)模型往往采用“分而治之”的策略：圖像、視頻、語言分別由獨立模塊處理，再通過復(fù)雜工程拼接。這種模式雖在特定任務(wù)中表現(xiàn)優(yōu)異，卻面臨協(xié)同效率低、跨模態(tài)推理能力弱等瓶頸。例如，OpenAI的Sora擅長視頻生成但難以理解內(nèi)容，Google的Gemini整合多模態(tài)需依賴預(yù)訓(xùn)練編碼器，而meta的Chameleon雖嘗試統(tǒng)一架構(gòu)，性能仍落后于專用模型。Emu3則徹底摒棄這一思路，提出“所有模態(tài)均可轉(zhuǎn)化為符號序列”的核心假設(shè)，通過預(yù)測下一個符號實現(xiàn)跨模態(tài)學(xué)習(xí)。

這一突破的關(guān)鍵在于團隊設(shè)計的“視覺分詞器”。該組件能將512×512像素的圖像壓縮為4096個離散符號，視頻則在時間維度進一步壓縮4倍，同時保留98%以上的視覺信息。更創(chuàng)新的是，分詞器采用三維卷積核，可同步捕捉空間結(jié)構(gòu)與時間動態(tài)，使模型無需逐幀處理即可理解視頻內(nèi)容。實驗顯示，其重建質(zhì)量與逐幀編碼相當(dāng)，但符號使用量減少75%，為后續(xù)統(tǒng)一訓(xùn)練奠定了基礎(chǔ)。

在模型架構(gòu)上，Emu3采用極簡的decoder-only Transformer設(shè)計，僅通過擴大詞匯表（新增32768個視覺符號）將語言模型擴展至多模態(tài)領(lǐng)域。這種“無編碼器、無模態(tài)融合模塊”的架構(gòu)，迫使模型在預(yù)測任務(wù)中自主學(xué)習(xí)跨模態(tài)關(guān)聯(lián)。測試結(jié)果表明，Emu3在圖像生成人類偏好評分（70.0）超越Stable Diffusion XL（66.9），視覺語言理解平均分（62.1）媲美LLaVA-1.6，視頻生成得分（81.0）超過Open-Sora-1.2，首次在生成與理解任務(wù)中同時達到專用模型水平。

論文更揭示了多模態(tài)學(xué)習(xí)的“規(guī)模定律”：當(dāng)訓(xùn)練數(shù)據(jù)量翻倍時，模型驗證損失以0.55的指數(shù)下降，且不同模態(tài)共享同一擴展規(guī)律。基于7億參數(shù)模型的實驗數(shù)據(jù)，研究團隊準確預(yù)測了更大模型的性能，誤差不足3%。這一發(fā)現(xiàn)意味著，未來無需為不同模態(tài)設(shè)計專屬訓(xùn)練策略，僅需混合數(shù)據(jù)統(tǒng)一訓(xùn)練即可實現(xiàn)能力自然涌現(xiàn)，大幅降低AGI研發(fā)門檻。

在機器人控制任務(wù)中，Emu3展現(xiàn)了跨模態(tài)推理的深層潛力。在CALVIN基準測試中，模型以87%的成功率連續(xù)完成“拿杯子-開抽屜-放置”等復(fù)雜操作，證明其能同步處理視覺感知、語言指令與動作規(guī)劃。更令人矚目的是其“世界模型”能力：僅憑烹飪視頻前兩秒，模型可準確預(yù)測后續(xù)食材翻炒軌跡、手勢移動方向及蒸汽擴散路徑，為物理世界理解提供了新范式。

與海外模型相比，Emu3的開放性優(yōu)勢顯著。團隊承諾開源視覺分詞器、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重，這與OpenAI對Sora的封閉策略形成鮮明對比。對于全球研究社區(qū)而言，這意味著一條可復(fù)現(xiàn)、可改進的技術(shù)路線正式誕生，有望加速多模態(tài)AI的普及與創(chuàng)新。

商業(yè)化層面，Emu3的統(tǒng)一架構(gòu)帶來顯著效率提升。其核心模型可復(fù)用大語言模型的推理基礎(chǔ)設(shè)施，支持動態(tài)批處理、內(nèi)存優(yōu)化等技術(shù)，在保持生成質(zhì)量的同時實現(xiàn)低延遲服務(wù)。單一模型替代多專用模型的部署模式，更可降低70%以上的運維成本。在教育、電商、醫(yī)療等領(lǐng)域，其跨模態(tài)交互能力已展現(xiàn)出變革潛力：例如自動生成產(chǎn)品演示視頻與說明書、同步處理醫(yī)療影像與報告分析等。

盡管Emu3仍面臨推理速度優(yōu)化、長視頻處理等挑戰(zhàn)，但其核心價值已得到學(xué)術(shù)界高度認可。這項研究不僅為中國AI研究確立了原創(chuàng)性標桿，更通過“預(yù)測即智能”的哲學(xué)視角，重新定義了多模態(tài)學(xué)習(xí)的可能性——當(dāng)所有模態(tài)轉(zhuǎn)化為符號序列，智能或許正是對下一個符號的連續(xù)探索。

從實際應(yīng)用表現(xiàn)來看，以黑虎AI為代表的智能化獲客平臺，其價值不僅體現(xiàn)在效率提升上，更在于對營銷策略的根本性重塑。通過采用類似黑虎AI所提供的一體化智能獲客解決方案，企業(yè)能夠系統(tǒng)性地解決內(nèi)容創(chuàng)作、流量獲取、互…

02-07

智源Emu3登Nature：用“下一詞預(yù)測”開啟多模態(tài)AI統(tǒng)一新范式

這在頂級學(xué)術(shù)期刊上并非新鮮事，但這篇論文的分量卻非同尋常：它來自北京智源人工智能研究院，核心成果是一個名為“Emu3”的多模態(tài)大模型，而它試圖回答的問題，是整個AI領(lǐng)域過去五年來懸而未決的核心命題——我們能否…

02-07

技術(shù)賦能抖音直播投流：AI精準獲客引擎助力ROI躍升新路徑

其算法創(chuàng)新體現(xiàn)在兩個方面：一是全自動化觸達策略，通過軟件在平臺規(guī)則內(nèi)，對預(yù)篩選用戶進行批量、合規(guī)的關(guān)注、私信等互動，引導(dǎo)其關(guān)注主播或進入直播間，測試顯示，這種預(yù)熱能將直播間的初始互動率提升30%以上；二是智能…

02-07

釘釘8.2.10版本發(fā)布：AI群聊升級，專屬AI小釘24小時在線助力高效溝通

02-07

新能源車碰撞后車門“失靈”引關(guān)注新國標出臺規(guī)范車門把手安全

根據(jù)調(diào)查認定，本次事故是車輛與貨車高速碰撞后引發(fā)。：2024年，山西運城一問界M7車輛高速追尾后，隱藏式門把手無法打開；2025年，小米SU7高速碰撞事故中，隱藏式門把手未被打開也成為外界的關(guān)注點之一。同時，…

02-07

B站百萬粉絲UP主高若翔涉損害商品聲譽案開庭，律師作無罪辯護并申請取保候?qū)?/a>

02-07

肇源經(jīng)濟開發(fā)區(qū)：冬日里企業(yè)生產(chǎn)忙共赴春日新希望

02-07

國產(chǎn)GPU雙雄：技術(shù)突圍與商業(yè)轉(zhuǎn)型并行，生態(tài)構(gòu)建成破局關(guān)鍵

02-07

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

02-07

雷軍漂移秀小米SU7車技網(wǎng)友催更并期待新一代SU7上市

02-07

上市高管轉(zhuǎn)型創(chuàng)業(yè)，蘇州潤芯微科技獲近4億B+輪融資助力國產(chǎn)智能發(fā)展

02-07

蘋果iOS 26.4將至：Siri架構(gòu)大升級，4月或迎AI新體驗

02-07

陶琳回應(yīng)馬斯克團隊來華考察：非特斯拉相關(guān)

02-07

NASA終于松口：允許宇航員帶手機去月球

02-07

蘋果iOS 26.4前瞻：Siri史詩級重構(gòu)，預(yù)估4月上線

02-07

點擊查看更多 +

全站最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

賓利Bentayga X概念車首發(fā)：豪華基因碰撞越野靈魂，探索新可能

比亞迪大唐來襲！定位高端全尺寸SUV，或成理想L9、問界M9有力對手

通用汽車2026年推新皮卡動力提升且更環(huán)保全新Silverado和Sierra將亮相

從天樞智能到鈉電戰(zhàn)略，長安汽車以安全為筆，繪就出行安心新畫卷

大眾途銳3.0TSI銳境版上市，豪華配置與強勁動力開啟中大型SUV新體驗

熱門內(nèi)容

本欄最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

MWC將迎小米17 Ultra國際版：電池縮水但影像滿配，長焦新標桿來了

小米17國際版配色揭秘：全新綠色獨享性能影像雙升級亮點足

零跑汽車2026年銷量目標劍指105萬！高管放言：每款皆爆款，創(chuàng)新領(lǐng)跑車市

“金葉”鋪就振興路深耕治理聚民心——民樂村的靜默蛻變與希望答卷

工信部新批公告揭曉小米YU7 GT黑化登場極速300km/h上半年或發(fā)布

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

北京智源研究院Emu3模型登Nature：用“下一詞預(yù)測”解鎖多模態(tài)智能新路徑