谷歌近日面向特定用戶群體開(kāi)放了其世界模型Genie 3的實(shí)驗(yàn)性研究原型——Project Genie的體驗(yàn)權(quán)限。這款專注于沉浸式世界創(chuàng)建的互動(dòng)原型,旨在讓用戶通過(guò)文本和視覺(jué)提示設(shè)計(jì)、探索并重新混合屬于自己的互動(dòng)環(huán)境。此前,谷歌曾在去年8月初步預(yù)覽了Genie 3的世界模型能力,其能夠生成多樣化的可交互環(huán)境,引發(fā)了早期測(cè)試者的廣泛關(guān)注。
目前,年滿18歲的美國(guó)Google AI Ultra訂閱用戶已可率先體驗(yàn)這一原型。Project Genie是一個(gè)基于Web的應(yīng)用,由Genie 3、Nano Banana Pro和Gemini共同驅(qū)動(dòng),用戶可以通過(guò)它親身體驗(yàn)世界模型帶來(lái)的沉浸式感受。其工作流程包括設(shè)計(jì)、預(yù)覽、生成和重混四個(gè)環(huán)節(jié):用戶首先使用文本和視覺(jué)提示設(shè)計(jì)世界和角色;隨后,Nano Banana Pro會(huì)生成圖像預(yù)覽供調(diào)整;進(jìn)入世界后,Genie 3會(huì)隨著用戶的移動(dòng)實(shí)時(shí)生成環(huán)境;最后,用戶可以在作品庫(kù)中重新混合現(xiàn)有世界或發(fā)現(xiàn)新世界。
該體驗(yàn)圍繞三大核心能力構(gòu)建。首先是“世界草圖繪制”,用戶可通過(guò)文本提示或生成/上傳的圖像創(chuàng)建生動(dòng)且不斷擴(kuò)展的環(huán)境,定義角色、探索方式(如步行、騎行、飛行等)以及視角(第一人稱或第三人稱)。Nano Banana Pro的集成讓用戶能在進(jìn)入世界前預(yù)覽并微調(diào)圖像,實(shí)現(xiàn)更精確的控制。其次是“世界探索”,用戶創(chuàng)造的世界是可導(dǎo)航的動(dòng)態(tài)環(huán)境,Project Genie會(huì)根據(jù)用戶行動(dòng)實(shí)時(shí)生成前方路徑,并允許調(diào)整鏡頭。最后是“世界重混”,用戶可基于現(xiàn)有世界的提示詞構(gòu)建新詮釋,或在作品庫(kù)中探索精選世界以獲取靈感,完成后可下載世界和探索過(guò)程的視頻。
世界模型的核心在于模擬環(huán)境的動(dòng)態(tài)變化,預(yù)測(cè)其演變方式及行為影響。谷歌開(kāi)發(fā)的Genie 3突破了傳統(tǒng)靜態(tài)3D快照的限制,能夠在用戶移動(dòng)和互動(dòng)時(shí)實(shí)時(shí)生成路徑,模擬物理和交互,其一致性使得模擬任何真實(shí)世界場(chǎng)景成為可能,包括機(jī)器人技術(shù)、建模動(dòng)畫、小說(shuō)創(chuàng)作以及歷史場(chǎng)景探索等。這一能力為構(gòu)建通用人工智能(AGI)提供了重要基礎(chǔ),因?yàn)锳GI需要能夠駕馭現(xiàn)實(shí)世界多樣性的系統(tǒng)。
盡管Project Genie展現(xiàn)了強(qiáng)大的潛力,但作為早期研究模型,Genie 3仍存在一些待改進(jìn)領(lǐng)域。例如,生成的世界可能不完全逼真,或不完全遵循提示詞和圖像,甚至不符合現(xiàn)實(shí)物理規(guī)律;角色控制可能不夠流暢,或存在延遲;生成時(shí)長(zhǎng)限制在60秒內(nèi)。去年8月宣布的某些功能,如探索時(shí)可改變世界的“可提示事件”,尚未包含在此原型中。谷歌表示,將通過(guò)與各行業(yè)和領(lǐng)域的信任測(cè)試者合作,持續(xù)優(yōu)化這一模型。







