國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》即將在紙質(zhì)版刊發(fā)一項(xiàng)來(lái)自中國(guó)科研機(jī)構(gòu)的重要成果——北京智源人工智能研究院研發(fā)的多模態(tài)大模型“通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型”成功入選。這一突破標(biāo)志著我國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型研究首次登上《自然》正刊,為生成式人工智能領(lǐng)域開(kāi)辟了新路徑。
自2018年GPT通過(guò)“預(yù)測(cè)下一個(gè)詞元(NTP)”的自回歸技術(shù)實(shí)現(xiàn)語(yǔ)言大模型重大突破以來(lái),生成式人工智能浪潮席卷全球。然而,多模態(tài)模型的發(fā)展長(zhǎng)期依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等獨(dú)立技術(shù)路線,自回歸路線能否成為統(tǒng)一多模態(tài)學(xué)習(xí)的通用方案,一直是學(xué)界懸而未決的難題。智源研究院提出的Emu3模型,以“預(yù)測(cè)下一個(gè)詞元”為核心,首次將圖像、文本和視頻數(shù)據(jù)統(tǒng)一離散化至同一表示空間,并通過(guò)單一Transformer架構(gòu)實(shí)現(xiàn)多模態(tài)序列的聯(lián)合訓(xùn)練,為這一難題提供了創(chuàng)新性解答。
Emu3模型的架構(gòu)設(shè)計(jì)突破了傳統(tǒng)多模態(tài)模型的局限。研究團(tuán)隊(duì)摒棄了針對(duì)不同模態(tài)分別訓(xùn)練的思路,轉(zhuǎn)而構(gòu)建了一個(gè)能夠同時(shí)處理文本、圖像和視頻的統(tǒng)一框架。通過(guò)將多模態(tài)數(shù)據(jù)轉(zhuǎn)化為離散詞元序列,模型在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)跨模態(tài)關(guān)聯(lián),無(wú)需依賴外部對(duì)齊工具或預(yù)訓(xùn)練模型。這一設(shè)計(jì)不僅簡(jiǎn)化了模型結(jié)構(gòu),還顯著提升了計(jì)算效率,為原生多模態(tài)大模型的訓(xùn)練提供了新范式。
實(shí)驗(yàn)數(shù)據(jù)顯示,Emu3在生成與感知任務(wù)中展現(xiàn)出卓越性能。在文生圖任務(wù)中,其生成質(zhì)量達(dá)到擴(kuò)散模型水平;在視覺(jué)語(yǔ)言理解任務(wù)中,表現(xiàn)可與融合CLIP和大語(yǔ)言模型的主流方案媲美。更引人注目的是,Emu3突破了傳統(tǒng)視頻生成模型的局限,通過(guò)自回歸方式逐詞元預(yù)測(cè)視頻序列,實(shí)現(xiàn)了基于因果關(guān)系的視頻生成與延展。這一特性使其能夠初步模擬物理世界中的環(huán)境變化、人類行為和動(dòng)物動(dòng)作,為視頻生成領(lǐng)域帶來(lái)了新的可能性。
《自然》期刊編輯在點(diǎn)評(píng)中指出,Emu3模型僅憑“預(yù)測(cè)下一個(gè)詞元”這一簡(jiǎn)單機(jī)制,便實(shí)現(xiàn)了文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其性能與使用專門(mén)路線的模型相當(dāng)。這一成果不僅驗(yàn)證了自回歸路線在多模態(tài)學(xué)習(xí)中的可行性,更為構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)奠定了基礎(chǔ)。研究團(tuán)隊(duì)還開(kāi)源了多項(xiàng)關(guān)鍵技術(shù)與模型代碼,為全球科研人員進(jìn)一步探索多模態(tài)學(xué)習(xí)提供了重要資源。
據(jù)悉,Emu3模型的研發(fā)團(tuán)隊(duì)在訓(xùn)練過(guò)程中采用了大規(guī)模多模態(tài)序列混合數(shù)據(jù)集,覆蓋了文本、圖像和視頻的多種組合形式。通過(guò)聯(lián)合訓(xùn)練,模型能夠自動(dòng)捕捉不同模態(tài)之間的內(nèi)在聯(lián)系,例如將圖像中的視覺(jué)元素與文本描述對(duì)應(yīng),或?qū)⒁曨l中的動(dòng)作序列與語(yǔ)言指令關(guān)聯(lián)。這種跨模態(tài)理解能力使Emu3在機(jī)器人操作、多模態(tài)交互等復(fù)雜任務(wù)中具有潛在應(yīng)用價(jià)值。











