在AI技術飛速發展的當下,谷歌最新推出的Project Genie項目引發了廣泛關注。這款基于世界模型的創新應用,一經發布便在社交媒體上掀起熱潮,谷歌DeepMind官方推特在短短十二小時內就收獲了四千多次轉發、近兩萬點贊和一萬次收藏。
Project Genie并非橫空出世,其底層模型可追溯至去年八月谷歌發布的世界模型Genie 3。此次谷歌將Genie 3與Nano Banana Pro技術相結合,實現了可玩性的大幅提升。與傳統的視頻模型不同,世界模型致力于構建一個可交互、無限生成的物理世界,類似于無邊界版的《我的世界》。
根據谷歌官方介紹,Project Genie的功能主要分為三大模塊:世界草圖、世界探索和世界再合成。用戶只需輸入場景提示詞和角色提示詞,Nano Banana Pro便會生成畫面草圖,供用戶選擇視角和視覺效果。隨后,Genie 3會實時生成可探索的物理世界。用戶還可以基于已有提示詞,對世界進行進一步修改和定制。
在官方示例中,當輸入"一個有很多珊瑚的海底世界"作為場景提示詞,"一只金魚"作為角色描述時,系統迅速生成了一個栩栩如生的海底世界。更令人驚嘆的是,用戶還可以上傳日常生活照片,讓靜態畫面瞬間動起來,效果堪比熱門游戲《雙人成行》。用戶可以隨時中斷當前世界,僅更換角色或背景,操作自由度極高。
從官方展示的案例來看,Project Genie不僅在畫面精細度上有顯著提升,還解決了以往世界模型中常見的場景崩潰和操作卡頓問題。然而,一些用戶在實際測試中發現了更多令人興奮的功能。例如,系統能夠準確模擬煙盒和紙屑的碰撞效果,展現出對物理規律的深刻理解。還有用戶利用該技術創建了極具挑戰性的游戲關卡,其難度不亞于曾經風靡B站的《掘地求升》。
有網友興奮地表示,他使用Project Genie制作了人生中第一個AI視頻游戲,真正實現了"一句話一個游戲"的創想。這些實際案例表明,Project Genie的應用潛力遠超官方演示,為游戲開發領域帶來了新的可能性。
盡管Project Genie展現出了驚人的潛力,但世界模型的發展之路并非一帆風順。長期以來,研究人員對世界模型能否真正理解物理世界、能否成為通往通用人工智能(AGI)的橋梁持懷疑態度。世界模型對視覺和動作數據的要求極高,訓練過程中消耗的算力是大模型的數倍,部署難度也相當大。這些因素導致過去的世界模型在效果上往往不盡如人意。
例如,李飛飛教授團隊推出的Marble世界模型就存在分辨率低、操作卡頓、物理理解不足等問題。模型記憶有限導致場景中的物體容易消失,角色行為也經常出現不符合物理規律的情況。這些問題在過去的世界模型中普遍存在,嚴重影響了用戶體驗。
然而,Project Genie的出現似乎改變了這一局面。雖然目前的技術還無法制作出《頭號玩家》那樣的科幻級游戲,但隨著技術的不斷成熟,其應用前景將變得十分廣闊。在廣告制作領域,AI生成的視頻時長限制將成為過去式,廣告商可以輕松創建連貫的長視頻內容。在視頻后期制作方面,復雜的3D模型和場景構建將變得簡單快捷,大大提高工作效率。
當然,Project Genie仍存在一些需要改進的地方。谷歌官方承認,當前版本生成的結果可能與用戶提示存在差異,與真實物理規律也有一定差距。角色控制有時不夠靈敏,動作延遲較高,且每次生成的世界只能持續60秒。部分用戶體驗后反饋,系統運行不夠流暢,偶爾會出現卡頓現象。
目前,Project Genie僅對美國地區的谷歌Ultra賬號用戶開放,且需要進行年齡驗證(18歲以上)。這一限制引發了一些用戶的不滿,有人猜測谷歌可能是為了防止非正規渠道獲取的Pro賬號濫用該服務。盡管如此,技術普及的趨勢難以阻擋。正如自然語言模型從GPT-2到如今百花齊放的發展歷程所示,世界模型可能正站在一個重要的轉折點上,其未來發展值得期待。
















