當(dāng)全球AI視頻生成領(lǐng)域還在為提升畫(huà)質(zhì)、延長(zhǎng)時(shí)長(zhǎng)而激烈競(jìng)爭(zhēng)時(shí),一家名為Xmax AI的初創(chuàng)公司以顛覆性技術(shù)引發(fā)行業(yè)震動(dòng)。其發(fā)布的全球首個(gè)虛實(shí)融合實(shí)時(shí)交互視頻生成模型X1,通過(guò)毫秒級(jí)響應(yīng)與低門(mén)檻手勢(shì)操作,將傳統(tǒng)AI視頻從"被動(dòng)觀看"推向"主動(dòng)共創(chuàng)",重新定義了人機(jī)交互的邊界。
在傳統(tǒng)AI視頻生成場(chǎng)景中,用戶往往需要輸入復(fù)雜指令并經(jīng)歷漫長(zhǎng)等待,最終獲得的仍是單向輸出的預(yù)制內(nèi)容。Xmax AI團(tuán)隊(duì)獨(dú)辟蹊徑,通過(guò)端到端流式重渲染架構(gòu)與幀級(jí)自回歸DiT模型,將擴(kuò)散采樣速度提升百倍。這項(xiàng)突破性技術(shù)使得手機(jī)攝像頭捕捉的現(xiàn)實(shí)畫(huà)面,能夠與虛擬角色實(shí)現(xiàn)無(wú)縫融合——當(dāng)用戶對(duì)準(zhǔn)桌面上的滾球獸圖片,虛擬角色不僅會(huì)"躍出"屏幕,還能對(duì)撫摸、托舉等手勢(shì)產(chǎn)生物理反饋,甚至根據(jù)手指滑動(dòng)方向調(diào)整絨毛形變。
支撐這種沉浸式體驗(yàn)的,是團(tuán)隊(duì)自主研發(fā)的四大核心交互系統(tǒng)。其中"次元互動(dòng)"功能允許用戶上傳任意角色圖像,通過(guò)空間三維關(guān)系解析算法,使虛擬角色在現(xiàn)實(shí)場(chǎng)景中保持自然動(dòng)作邏輯;"世界濾鏡"系統(tǒng)則能將梵高畫(huà)作風(fēng)格實(shí)時(shí)映射到現(xiàn)實(shí)畫(huà)面,確保揮手、轉(zhuǎn)頭等動(dòng)作與藝術(shù)風(fēng)格同步演變。更令人驚嘆的是"觸控動(dòng)圖"技術(shù),用戶僅需拖拽照片中角色的耳朵,就能觸發(fā)搖頭、微笑等動(dòng)態(tài)響應(yīng),甚至能讓靜態(tài)貓咪照片完成揮拳、跳舞等復(fù)雜動(dòng)作。
這項(xiàng)技術(shù)突破的背后,是跨學(xué)科團(tuán)隊(duì)的協(xié)同攻堅(jiān)。由前華為"天才少年"領(lǐng)銜的研發(fā)團(tuán)隊(duì),融合了清華大學(xué)KEG實(shí)驗(yàn)室的算法優(yōu)化能力、香港科技大學(xué)(廣州)的交互設(shè)計(jì)經(jīng)驗(yàn),以及字節(jié)跳動(dòng)等企業(yè)的工程化落地實(shí)力。為解決虛實(shí)融合數(shù)據(jù)稀缺難題,團(tuán)隊(duì)構(gòu)建了半自動(dòng)化合成管線,既筑牢了技術(shù)壁壘,也為行業(yè)儲(chǔ)備了珍貴數(shù)字資產(chǎn)。通過(guò)多階段蒸餾壓縮與對(duì)抗訓(xùn)練,模型在保持97%精度的情況下,將計(jì)算量壓縮至行業(yè)平均水平的1/20。
目前,Xmax AI已通過(guò)技術(shù)演示應(yīng)用X-cam開(kāi)放體驗(yàn),用戶可通過(guò)TestFlight下載感受虛實(shí)交融的魅力。當(dāng)行業(yè)還在爭(zhēng)論Sora與Runway誰(shuí)更逼真時(shí),這家初創(chuàng)公司已用X1模型證明:真正的技術(shù)革命不在于參數(shù)規(guī)模,而在于能否讓每個(gè)普通人都能用最本能的方式與數(shù)字世界互動(dòng)。正如其Slogan"Play the World through AI"所昭示的,這場(chǎng)交互范式革命正在模糊虛擬與現(xiàn)實(shí)的界限,讓每個(gè)像素都成為可觸摸的創(chuàng)意載體。











