在博鰲論壇的演講臺上,vivo總裁胡柏山分享了一個(gè)令人動容的故事:失明九年的寶哥舉起手機(jī),耳機(jī)里傳來AI的描述:“面前是你的朋友章喜德,他雙臂交叉,面帶微笑,穿著一件深色長袖。”這一刻,技術(shù)跨越了視覺的障礙,讓寶哥“看見”了九年來第一個(gè)新朋友的面容。這個(gè)場景背后,折射出AI發(fā)展至今仍面臨的深層挑戰(zhàn)——如何讓智能設(shè)備真正感知物理世界?
胡柏山在演講中指出,當(dāng)前AI的“盲區(qū)”不在于算力,而在于感知能力的缺失。盡管大模型能夠處理海量數(shù)字?jǐn)?shù)據(jù),生成文字、圖像甚至視頻,但它無法實(shí)時(shí)感知用戶身邊的物理環(huán)境。這種感知不是通過云端上傳照片后的被動識別,而是像人類視覺系統(tǒng)一樣,實(shí)現(xiàn)端側(cè)的實(shí)時(shí)、主動、持續(xù)感知。他比喻道:“沒有感知能力的AI,就像困在黑屋子里的天才,算力再強(qiáng)也看不見咫尺之外的世界。”
基于這一判斷,vivo在內(nèi)部正式成立了“感知賽道”,將視覺、聽覺、觸覺等多模態(tài)感知通過傳感器與感知大模型結(jié)合,轉(zhuǎn)化為設(shè)備可理解的物理世界信號。胡柏山認(rèn)為,未來大模型之間的差異可能逐漸縮小,但感知數(shù)據(jù)具有真實(shí)差異化——家庭機(jī)器人積累室內(nèi)環(huán)境數(shù)據(jù),手機(jī)影像積累用戶真實(shí)生活場景的視覺信號,這些場景數(shù)據(jù)的豐富程度將直接決定智能體驗(yàn)的優(yōu)劣。
影像技術(shù)被胡柏山視為AI的“眼睛”。vivo通過近十年的影像大模型算法研發(fā),結(jié)合定制化硬件模組,實(shí)現(xiàn)了軟硬協(xié)同的獨(dú)特優(yōu)勢。他透露,即將發(fā)布的vivo X300 Ultra和X300s將搭載第一代“影像Agent”,能夠根據(jù)拍攝對象、光線和距離自動優(yōu)化成像效果,讓普通用戶也能輕松拍出專業(yè)級照片。這種能力不僅限于影像領(lǐng)域,vivo還計(jì)劃將Agent技術(shù)擴(kuò)展至辦公、出行、游戲等場景,例如折疊旗艦X Fold系列可自動記錄會議內(nèi)容、規(guī)劃行程,iQOO系列則能優(yōu)化游戲性能并捕捉高光時(shí)刻。
在技術(shù)路徑選擇上,vivo堅(jiān)持端側(cè)優(yōu)先的策略。端側(cè)感知無需依賴網(wǎng)絡(luò)往返,能夠?qū)崟r(shí)響應(yīng)環(huán)境變化,同時(shí)保護(hù)用戶隱私。為突破端側(cè)算力限制,vivo兩年前開始與合作伙伴定制專用算力芯片,計(jì)劃在后續(xù)旗艦產(chǎn)品中部署。胡柏山強(qiáng)調(diào),vivo的Agent設(shè)計(jì)遵循“懂用戶、知人心,但不越邊界”的原則,所有關(guān)鍵用戶數(shù)據(jù)存儲在本地,換機(jī)時(shí)可整體遷移,形成獨(dú)特的“數(shù)字DNA”。
vivo的野心不止于手機(jī)領(lǐng)域。去年成立的機(jī)器人Lab,正探索將手機(jī)積累的感知能力延伸至機(jī)器人形態(tài)。胡柏山坦言,機(jī)器人不是手機(jī)的迭代,而是從零開始的全新挑戰(zhàn)。2026年,vivo機(jī)器人Lab的首要任務(wù)是明確目標(biāo)用戶和核心場景,例如從寵物喂養(yǎng)、收納整理等容錯(cuò)率高的場景切入,逐步積累場景數(shù)據(jù)和技術(shù)能力。他設(shè)想,手機(jī)與機(jī)器人可形成協(xié)同:機(jī)器人初期能力不足時(shí),由手機(jī)遠(yuǎn)程補(bǔ)位;隨著場景數(shù)據(jù)積累,機(jī)器人將逐步實(shí)現(xiàn)自主決策。
在混合現(xiàn)實(shí)(MR)領(lǐng)域,vivo已邁出探索步伐。2025年8月發(fā)布的vivo Vision探索版頭顯在國內(nèi)28家體驗(yàn)店及東南亞市場同步亮相,累計(jì)體驗(yàn)人數(shù)超五萬。胡柏山透露,下一代產(chǎn)品將瞄準(zhǔn)商業(yè)化目標(biāo),計(jì)劃在2027年下半年至2028年初推出。他強(qiáng)調(diào),感知賽道的投入需要長期主義:“我們控制投入節(jié)奏,螺旋式上升,避免組織因過度擴(kuò)張而受傷。”
回到寶哥的故事,胡柏山總結(jié)道:“科技的高度,終須回歸人的尺度。”當(dāng)算力逐漸同質(zhì)化,模型參數(shù)不再成為競爭焦點(diǎn),智能設(shè)備對物理世界的感知深度,以及關(guān)于用戶個(gè)體的場景數(shù)據(jù)積累,將成為決定體驗(yàn)差異的關(guān)鍵因素。這場關(guān)于感知的競賽,或許才剛剛開始。










