當(dāng)好萊塢因Seedance 2.0的逼真效果集體發(fā)出抵制聲明時(shí),開發(fā)者們卻用一場(chǎng)“AI數(shù)數(shù)挑戰(zhàn)賽”戳破了技術(shù)泡沫。這項(xiàng)看似簡(jiǎn)單的任務(wù)——讓模型生成一個(gè)人從1數(shù)到10的視頻,竟讓所有主流AI視頻工具集體翻車。無(wú)論是Seedance 2.0、Sora還是Veo,生成的畫面中要么手指數(shù)量與數(shù)字不符,要么語(yǔ)音與手勢(shì)錯(cuò)亂,暴露出當(dāng)前AI在物理常識(shí)理解上的根本缺陷。
這場(chǎng)挑戰(zhàn)源于DeepMind開發(fā)者去年發(fā)現(xiàn)的悖論:三歲孩童能輕松完成的手勢(shì)計(jì)數(shù),對(duì)AI而言卻是難以跨越的鴻溝。當(dāng)用戶要求模型在10秒內(nèi)連續(xù)變換10個(gè)手勢(shì)時(shí),系統(tǒng)往往在第三秒就出現(xiàn)邏輯斷裂——可能伸出三根手指卻宣稱“ten”,或是反復(fù)發(fā)出“t”的音節(jié)。這種荒誕場(chǎng)景與逼真的背景形成強(qiáng)烈反差,反而營(yíng)造出詭異的“偽人感”。
技術(shù)專家指出,問題根源在于AI的學(xué)習(xí)機(jī)制。現(xiàn)有模型通過分析海量視頻數(shù)據(jù),掌握的是像素排列的統(tǒng)計(jì)規(guī)律,而非物理世界的運(yùn)行法則。以手部動(dòng)作為例,人類手掌包含27塊骨骼和18個(gè)自由度,但訓(xùn)練數(shù)據(jù)中手部常被遮擋或模糊,導(dǎo)致模型缺乏高質(zhì)量學(xué)習(xí)樣本。即便能渲染出逼真的皮膚紋理,也無(wú)法理解“五根手指”這一基本常識(shí)。
物理規(guī)律的理解缺失更為普遍。OpenAI在Sora的技術(shù)報(bào)告中承認(rèn),該模型無(wú)法準(zhǔn)確模擬玻璃破碎、液體流動(dòng)等基礎(chǔ)交互。當(dāng)涉及時(shí)間維度時(shí),缺陷更加明顯——擴(kuò)散模型將時(shí)間視為數(shù)學(xué)參數(shù)處理,缺乏記憶機(jī)制來(lái)保持前后邏輯一致。這就像讓畫家憑記憶作畫,雖能模仿筆觸風(fēng)格,卻無(wú)法保證畫中人物的手指數(shù)量始終正確。
行業(yè)正在探索新的解決方案。世界模型(World Model)概念逐漸興起,其核心是讓AI構(gòu)建對(duì)三維物理世界的結(jié)構(gòu)性認(rèn)知。這條路徑要求系統(tǒng)先理解空間幾何、物體屬性和運(yùn)動(dòng)規(guī)律,再基于此生成內(nèi)容。與傳統(tǒng)模型在二維平面預(yù)測(cè)像素不同,世界模型試圖讓AI“懂”物理規(guī)則后再進(jìn)行創(chuàng)作。
該領(lǐng)域已吸引頂尖科研力量布局。ImageNet締造者李飛飛創(chuàng)辦的World Labs,推出能從文本生成3D環(huán)境的工具M(jìn)arble;meta前首席AI科學(xué)家楊樂昆成立的AMI Labs,同樣聚焦物理世界建模;英偉達(dá)發(fā)布的Cosmos平臺(tái),則嘗試將視頻生成、物理模擬和機(jī)器人控制整合。這些動(dòng)向表明,純數(shù)據(jù)驅(qū)動(dòng)的技術(shù)路線正遭遇瓶頸,行業(yè)開始尋求范式突破。
盡管Seedance 2.0的演示曾引發(fā)“人類創(chuàng)作者將失業(yè)”的恐慌,但“數(shù)不到10”的測(cè)試結(jié)果提供了冷靜視角。當(dāng)前AI的進(jìn)步更多體現(xiàn)在視覺真實(shí)度上,而非對(duì)現(xiàn)實(shí)世界的理解。一個(gè)連手指數(shù)量都搞不清的系統(tǒng),距離真正替代人類創(chuàng)作仍存在根本性差距。這場(chǎng)挑戰(zhàn)賽提醒我們,在驚嘆技術(shù)表象的同時(shí),更需要關(guān)注其背后的認(rèn)知局限。








