滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

智源Emu3模型登Nature：自回歸路線引領多模態學習新突破

時間：2026-01-29 15:39:15 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能領域，多模態學習一直是備受矚目的研究方向。傳統上，多模態模型多依賴對比學習、擴散模型等專門路線，而自回歸路線能否成為統一多模態學習的通用方法，此前一直是未解之謎。近日，我國科研機構智源的一項重大成果，為這一問題給出了令人振奮的答案。

智源研究團隊提出了名為Emu3的多模態模型，該模型僅基于“預測下一個詞元”這一自回歸路線，便實現了大規模文本、圖像和視頻的統一學習。這一創新架構將圖像、文本和視頻統一離散化到同一個表示空間，并從零開始，在多模態序列混合數據上聯合訓練一個單一的Transformer。實驗結果顯示，Emu3在生成與感知任務上的整體表現可與多種成熟的任務專用模型相媲美。在文生圖任務中，其效果達到擴散模型水平；在視覺語言理解方面，能夠與融合CLIP和大語言模型的主流方案比肩。Emu3還具備視頻生成能力，通過自回歸方式逐詞元預測視頻序列，實現基于因果的視頻生成與延展，展現出對物理世界中環境、人類與動物行為的初步模擬能力。

“預測下一個詞元”這一概念，自2018年以來在語言模型領域取得了重大突破。GPT采用該自回歸路線，實現了語言大模型的飛躍，開啟了生成式人工智能浪潮。然而，其在多模態學習中的潛力此前并不明朗。在多模態模型領域，視覺生成長期由結構復雜的擴散模型主導，視覺語言感知則主要由組合式方法引領。盡管已有一些嘗試試圖統一生成與感知，但這些工作要么簡單拼接不同模型，要么在性能效果上不及專用方法。智源的Emu3模型成功證明了，單一的預測下一個詞元框架能夠作為通用的多模態學習范式。

Emu3不僅在性能上表現出色，還具有強大的可拓展性。它能夠自然地擴展到機器人操作以及多模態交錯等生成任務，例如圖文并茂的菜譜生成、視覺語言動作建模等。研究團隊還對相關研究的多項關鍵技術與模型進行了開源，其中包括一個穩定且通用的視覺分詞器，可將圖像與視頻高效轉換為離散詞元來表示。同時，通過大規模消融實驗，系統分析了多項關鍵技術的設計選擇，如分詞器碼本尺寸、初始化策略、多模態dropout機制以及損失權重配置等，揭示了多模態自回歸模型在訓練過程中的動態特性。直接偏好優化（DPO）方法可無縫應用于自回歸視覺生成任務，使模型能夠更好地對齊人類偏好。

基于Emu3的研究成果，悟界·Emu3.5進一步實現了重大升級。它通過大規模長時序視頻訓練，學習時空與因果關系，展現出隨模型與數據規模增長而提升的物理世界建模能力，并觀察到多模態能力隨規模擴展而涌現的趨勢，實現了從“預測下一個詞元”到“預測下一個狀態”的范式升級。這一成果對構建可擴展、統一的多模態智能系統具有重要意義，為統一多模態學習奠定了堅實基礎，有望推動原生多模態助手、世界模型以及具身智能等方向的發展。

Emu系列模型的研發歷程，見證了智源研究團隊在多模態大模型領域的持續探索與創新。自2022年啟動研發以來，Emu系列模型圍繞“原生多模態”這一核心技術主線不斷迭代。2023年7月，發布并開源首個版本，成為最早打通多模態輸入到多模態輸出的統一多模態模型；2023年12月，發布Emu2，展現出可泛化的多模態上下文學習能力；2024年10月，發布Emu3，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態數據的理解和生成；2025年10月，推出原生多模態世界模型Emu3.5，實現能力躍遷。這一系列成果的取得，離不開智源長期聚焦大模型的原始創新與長期技術路徑探索。

自2020年啟動“悟道”大模型研究以來，智源持續發力人工智能領域。2025年6月，發布新一代大模型系列“悟界”，旨在構建人工智能從數字世界邁向物理世界的關鍵能力，及物理世界的人工智能基座模型。這其中包括Emu系列多模態世界模型、RoboBrain跨本體具身大腦等多個重要模型，構建起覆蓋宏觀具身智能、介觀生命系統到微觀構象動力學的多層次技術基座。FlagOS開源系統軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。成立七年來，智源聚焦人工智能技術前沿，不斷挑戰最基礎的問題和最關鍵的難題，推進大模型技術持續演進。

更多>同類資訊

30天機器狗爆改大熊貓揭秘春晚百臺級機器人群控演出

02-19

拿中國機器狗冒充自研后印度一大學又展出泡沫無人機

02-19

爆火的OpenClaw，真的要脫離人類監控了嗎？

02-19

螞蟻Ling-2.5-1T：萬億參數大模型，情商與執行力雙在線的開源新選擇

02-19

2026人形機器人“鬧春”背后：技術突破與產業分化新圖景漸顯

02-19

AI浪潮下科技股動蕩，蘋果憑“硬件防御”成投資者避險優選

02-19

全球首個可追溯推理的罕見病AI醫生問世，我國科研團隊解鎖AI看病新路徑

02-19

我國科學家攻克“帶寬鴻溝” 6G融合通信系統刷新數據傳輸速率紀錄

02-19

2026海淀新春科技廟會啟幕科技與年俗碰撞打造新春特色盛宴

02-19

英偉達GTC將推“前所未見”芯片，Rubin衍生品或Feynman架構引期待

02-19

春節新潮流：年輕人熱衷AI算命，賽博祈福能否走出迷茫期？

02-19

春晚機器人“大秀”：從托馬斯回旋到百臺熊貓共舞，具身智能加速照進現實

02-19

印度大學學術造假鬧劇：先拿中國機器狗充數，又推泡沫“無人機”被轟

02-19

馬年春晚機器人驚艷外國網友：中國科技狂飆，他們直呼“不敢信”

這些網友，特別是第一波觀看馬年春晚的外國朋友們，看到春晚機器人表演后，紛紛表示無法相信，甚至懷疑那一定是AI技術所創造的幻覺。觀眾看到這些動作時，甚至一度以為是機器人參加了奧運會，完成了令人驚嘆的競技表現。他…

02-19

春晚機器人“大顯身手”：從武術到小品，科技與創意共繪未來新畫卷

尤其是在虛擬團隊的呈現上，他們也充滿了驕傲和喜悅。今年的春晚，機器人技術的應用達到了一個新的高度，機器人元素不僅僅是作為科技的展示，更是通過節目傳遞出中國機器人產業的多樣化和立體化發展狀態。這一次，機器人不僅…

02-19

點擊查看更多 +

全站最新

法拉利首款電動車Luce路測亮相：超千匹馬力 2026年5月盛大發布

2026春節假期新能源汽車高速充電熱：日均1180萬度同比增長超六成

中大型SUV市場競爭白熱化 1月銷量榜單揭曉 4款車型銷量破萬問界M7居次席

AI添彩新春年味濃浙江“科技年貨”引領傳統佳節新潮流

AI深度融入生活：千問引領春節消費新潮流，開啟智能生活新篇章

春晚“機器人熱”來襲：舞臺驚艷亮相后，消費端與產業端路在何方？

熱門內容

本欄最新

零跑D99豪華MPV來襲：算力續航雙強，或成北方電車用戶福音

2026年具身智能分水嶺：松延動力激進沖刺，開啟機器人規模化新篇

2026年MPV市場大爆發！6款新車即將登場，哪款能戳中你的心？

2026年MPV市場熱鬧非凡！6款新車即將登場，哪款是你的出行首選？

魏牌V9X強勢入局“9系”SUV市場，能否成家用高端SUV破局關鍵？

春晚機器人“大放異彩”：從伴舞到多才多藝，外國網友直呼厲害

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

智源Emu3模型登Nature：自回歸路線引領多模態學習新突破