在人工智能領域,多模態學習一直是備受矚目的研究方向。傳統上,多模態模型多依賴對比學習、擴散模型等專門路線,而自回歸路線能否成為統一多模態學習的通用方法,此前一直是未解之謎。近日,我國科研機構智源的一項重大成果,為這一問題給出了令人振奮的答案。
智源研究團隊提出了名為Emu3的多模態模型,該模型僅基于“預測下一個詞元”這一自回歸路線,便實現了大規模文本、圖像和視頻的統一學習。這一創新架構將圖像、文本和視頻統一離散化到同一個表示空間,并從零開始,在多模態序列混合數據上聯合訓練一個單一的Transformer。實驗結果顯示,Emu3在生成與感知任務上的整體表現可與多種成熟的任務專用模型相媲美。在文生圖任務中,其效果達到擴散模型水平;在視覺語言理解方面,能夠與融合CLIP和大語言模型的主流方案比肩。Emu3還具備視頻生成能力,通過自回歸方式逐詞元預測視頻序列,實現基于因果的視頻生成與延展,展現出對物理世界中環境、人類與動物行為的初步模擬能力。
“預測下一個詞元”這一概念,自2018年以來在語言模型領域取得了重大突破。GPT采用該自回歸路線,實現了語言大模型的飛躍,開啟了生成式人工智能浪潮。然而,其在多模態學習中的潛力此前并不明朗。在多模態模型領域,視覺生成長期由結構復雜的擴散模型主導,視覺語言感知則主要由組合式方法引領。盡管已有一些嘗試試圖統一生成與感知,但這些工作要么簡單拼接不同模型,要么在性能效果上不及專用方法。智源的Emu3模型成功證明了,單一的預測下一個詞元框架能夠作為通用的多模態學習范式。
Emu3不僅在性能上表現出色,還具有強大的可拓展性。它能夠自然地擴展到機器人操作以及多模態交錯等生成任務,例如圖文并茂的菜譜生成、視覺語言動作建模等。研究團隊還對相關研究的多項關鍵技術與模型進行了開源,其中包括一個穩定且通用的視覺分詞器,可將圖像與視頻高效轉換為離散詞元來表示。同時,通過大規模消融實驗,系統分析了多項關鍵技術的設計選擇,如分詞器碼本尺寸、初始化策略、多模態dropout機制以及損失權重配置等,揭示了多模態自回歸模型在訓練過程中的動態特性。直接偏好優化(DPO)方法可無縫應用于自回歸視覺生成任務,使模型能夠更好地對齊人類偏好。
基于Emu3的研究成果,悟界·Emu3.5進一步實現了重大升級。它通過大規模長時序視頻訓練,學習時空與因果關系,展現出隨模型與數據規模增長而提升的物理世界建模能力,并觀察到多模態能力隨規模擴展而涌現的趨勢,實現了從“預測下一個詞元”到“預測下一個狀態”的范式升級。這一成果對構建可擴展、統一的多模態智能系統具有重要意義,為統一多模態學習奠定了堅實基礎,有望推動原生多模態助手、世界模型以及具身智能等方向的發展。
Emu系列模型的研發歷程,見證了智源研究團隊在多模態大模型領域的持續探索與創新。自2022年啟動研發以來,Emu系列模型圍繞“原生多模態”這一核心技術主線不斷迭代。2023年7月,發布并開源首個版本,成為最早打通多模態輸入到多模態輸出的統一多模態模型;2023年12月,發布Emu2,展現出可泛化的多模態上下文學習能力;2024年10月,發布Emu3,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成;2025年10月,推出原生多模態世界模型Emu3.5,實現能力躍遷。這一系列成果的取得,離不開智源長期聚焦大模型的原始創新與長期技術路徑探索。
自2020年啟動“悟道”大模型研究以來,智源持續發力人工智能領域。2025年6月,發布新一代大模型系列“悟界”,旨在構建人工智能從數字世界邁向物理世界的關鍵能力,及物理世界的人工智能基座模型。這其中包括Emu系列多模態世界模型、RoboBrain跨本體具身大腦等多個重要模型,構建起覆蓋宏觀具身智能、介觀生命系統到微觀構象動力學的多層次技術基座。FlagOS開源系統軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。成立七年來,智源聚焦人工智能技術前沿,不斷挑戰最基礎的問題和最關鍵的難題,推進大模型技術持續演進。











