新年剛開局,AI 行業(yè)就直接拉滿強(qiáng)度。
在 CES 這個全球科技風(fēng)向標(biāo)上,機(jī)器人 × AI 成了真正的主角。在拉斯維加斯的霓虹燈下,中國機(jī)器人軍團(tuán)走到舞臺中央——不靠堆概念,而是帶著訂單和規(guī)模化落地速度。

CES創(chuàng)新獎評委Chris Pereira 指出,中國廠商正在把新興技術(shù),快速轉(zhuǎn)化為能量產(chǎn)、能交付、能在全球市場銷售的成熟產(chǎn)品。
與此同時,AI 正退到幕后,成為產(chǎn)品底層能力,真正的競爭,落在實用性、設(shè)計與可靠執(zhí)行力上。
在展會現(xiàn)場,最吸睛的依舊是「人形」。

波士頓動力(現(xiàn)在已經(jīng)屬于韓國現(xiàn)代集團(tuán))的新版Atlas亮相。
但在同一空間內(nèi),另一條路線也在同步展開。
在影智 XBOT 的透明櫥窗前,人群一層層圍攏過來。這是全球首個支持冷熱雙杯同出的具身機(jī)器人,也是目前一眾具身智能中最落地的一種呈現(xiàn)。
有人舉著手機(jī)錄像,有人已經(jīng)在討論要把什么圖案印在咖啡上。

影智 XBOT Lite 系列印花咖啡機(jī)器人——全球首個支持冷熱雙杯同出的具身機(jī)器人。
玻璃之后,兩只機(jī)械臂分工協(xié)作,打奶、印花、出杯,動作連貫得像一段被反復(fù)打磨過的編舞。110 秒后,一杯冰美式和一杯熱拿鐵同時完成,杯面上浮現(xiàn)出由 AI 生成的專屬印花——每一杯都不重樣。

「這玩意兒太酷了。」隊伍里有人忍不住感嘆,「能在咖啡上打印照片,絕對是游戲規(guī)則改變者。」有人已經(jīng)等不及拍照發(fā)社交平臺。

機(jī)器人繼續(xù)出杯,節(jié)奏穩(wěn)定。「你能把公司 logo 印在咖啡上,這杯咖啡一下子就成專屬的了,誰會不喜歡?」 有顧客說。「而且不用付小費(fèi)——對顧客對老板都是好事。」 有人從更現(xiàn)實的角度補(bǔ)了一句。

喝完咖啡,又嘗了旁邊影智 XBOT 冰淇淋機(jī)器人做的冰淇淋,人群里笑聲不斷。「這哪是咖啡機(jī)?」有人指著櫥窗笑道,「這是個能把人吸過來的娛樂中心。」

與多數(shù)人形機(jī)器人仍在努力「看起來很未來」不同,影智XBOT并不追求形似人類,而是成為一臺可以全天候運(yùn)轉(zhuǎn)的生產(chǎn)工具——不跳舞、不表演,直接把一杯口感穩(wěn)定、好喝的咖啡,端到你面前。
而這套邏輯,已經(jīng)在真實世界里跑了很久。
從天安門廣場、國家圖書館到成都錦里,影智XBOT經(jīng)歷的不是短暫的 show time,而是數(shù)百萬次的反復(fù)出杯。
目前,影智XBOT已在 15 個以上國家、100多個城市落地,部署量超過 600 臺,累計制作咖啡 400 萬杯以上,在部分核心點位甚至實現(xiàn)了數(shù)月回本。
在具身智能普遍面臨商業(yè)化難題的當(dāng)下,影智XBOT用一組明確的數(shù)據(jù)證明:它是目前行業(yè)內(nèi)商用落地速度最快的具身智能機(jī)器人之一。

2025年8月影智科技發(fā)布年度新品之一:影智XBOT Lite系列印花咖啡機(jī)器人。
回歸商業(yè)常識:具身智能不等于「人形」
在當(dāng)下關(guān)于具身智能的討論中,「人形」幾乎成了一種默認(rèn)答案。但在「操刀」影智XBOT的影智科技看來,這條路徑更多源于技術(shù)想象,而非商業(yè)理性。
這一判斷,來自公司創(chuàng)始人唐沐長期積累的產(chǎn)品與商業(yè)經(jīng)驗。
作為 2022 年福布斯中國十佳設(shè)計師,唐沐曾掌舵騰訊用戶體驗設(shè)計中心(CDC),并擔(dān)任小米生態(tài)鏈副總裁。他既是 QQ 頭像、微信表情包等現(xiàn)象級符號的締造者,也是小米路由器、小愛智能音箱等億級爆款產(chǎn)品的重要推動者。

公司創(chuàng)始人唐沐和影智XBOT咖啡機(jī)器人。
長期站在技術(shù)、產(chǎn)品與規(guī)模化商業(yè)的交匯點,也塑造了他極其務(wù)實的產(chǎn)品觀:一切產(chǎn)品必須從真實場景出發(fā)、目標(biāo)要指向大眾市場,并且要經(jīng)得起規(guī)模化、可靠性與成本結(jié)構(gòu)的嚴(yán)格檢驗。
這也構(gòu)成了影智科技切入具身智能領(lǐng)域的基本原則——回歸商業(yè)常識。先解決人的需求,解決人的問題,在一個足夠垂直的場景中把事情做到極致,再去討論所謂的「終極形態(tài)」。
在唐沐看來,機(jī)器人的進(jìn)化路徑不該從「像人」出發(fā),而應(yīng)回到「是否真正有用」。具身智能的價值,并不取決于外形是否擬人,而在于是否能夠圍繞具體問題展開,在真實環(huán)境中靈活適應(yīng)、精準(zhǔn)執(zhí)行。
在大量現(xiàn)實的消費(fèi)與服務(wù)場景中,工程復(fù)雜度高、成本更高并伴有不可控風(fēng)險的人形設(shè)計,反而會成為商業(yè)化落地的負(fù)擔(dān)。
至于「為什么是精品咖啡」,也是多條現(xiàn)實線索疊加后的選擇。
挑市場,首先要足夠大,其次必須是一個成長型市場,咖啡符合這兩個前提。它本身是一個高度全球化、已被充分驗證的成熟消費(fèi)市場,而中國市場還在快速增長。
數(shù)據(jù)顯示,2023 年我國人均年咖啡消費(fèi)量約為 16.74 杯,幾乎是 2016 年的兩倍;到 2024 年,這一數(shù)字已提升至 22.24 杯以上。即便在瑞幸、庫迪等品牌快速擴(kuò)張的背景下,中國咖啡門店的整體密度,依然明顯低于日本和韓國等成熟市場,增長空間可觀。
需求持續(xù)走高的同時,供給側(cè)卻長期受制于人力瓶頸。
咖啡師培養(yǎng)周期長、流動性高,崗位留存率普遍偏低;在高度內(nèi)卷的競爭環(huán)境中,咖啡店拼的是出單量與運(yùn)營效率,對人力的擠壓不斷加劇,也放大了系統(tǒng)性的運(yùn)營矛盾。
咖啡消費(fèi)還呈現(xiàn)出明顯的波峰與波谷。高峰期排隊幾乎成為常態(tài),品質(zhì)波動難以避免。尤其是在拉花這類對毫米級精度和連續(xù)軌跡高度敏感的操作中,人類不可避免的生理性抖動,會直接放大為線條斷裂或形變。
而對大多數(shù)用戶而言,他們關(guān)心的不是「誰在做咖啡」,而是出杯是否足夠快、品質(zhì)是否始終穩(wěn)定。以出杯量為例,每天三百杯以上的穩(wěn)定輸出,對人類咖啡師而言幾乎不可持續(xù);而對機(jī)器人來說,這只是一個連續(xù)、可復(fù)制的標(biāo)準(zhǔn)工作負(fù)載。
在這樣的背景下,大模型的出現(xiàn),讓產(chǎn)品「升維」——從底層重新定義一套面向消費(fèi)服務(wù)場景的具身智能系統(tǒng)——成為可能。
市面上多數(shù)咖啡機(jī),本質(zhì)上仍是工業(yè)自動化設(shè)備,考慮的是「怎么把咖啡做完」。具身智能除了關(guān)心效率,還關(guān)心「這杯咖啡是給誰喝的、在什么情境下喝、怎樣才算一次好的體驗」。咖啡這一日常消費(fèi)場景,第一次有機(jī)會邁入以用戶體驗為核心的重構(gòu)階段。
歷經(jīng)兩年多研發(fā),影智XBOT問世并成功出圈,唐沐也因此多了一個被媒體反復(fù)引用的標(biāo)簽:「具身智能消費(fèi)機(jī)器人第一人」。
具身智能的「三位一體」:
為什么能做到萬杯如一?
從原料開始,影智XBOT就在為「穩(wěn)定性」服務(wù)。
目前,影智XBOT全部采用阿拉比卡咖啡豆,設(shè)備內(nèi)設(shè)置兩個豆倉:一個拼配豆,一個單品豆(瑰夏),以覆蓋不同用戶的口味偏好;牛奶則與蒙牛合作統(tǒng)一供應(yīng)。無論是在北京、上海,還是成都,下單后端到手里的那杯咖啡,都能保持高度一致的風(fēng)味。

這種「萬杯如一」的表現(xiàn),并不是靠單一環(huán)節(jié)實現(xiàn),而是依賴一套完整的具身智能技術(shù)體系:負(fù)責(zé)理解與決策的「大腦」、統(tǒng)籌執(zhí)行的操作系統(tǒng)(OS),以及完成精細(xì)物理動作的「小腦」。
影智XBOT的「大腦」,并不是傳統(tǒng)點單系統(tǒng),而是一套面向真實世界運(yùn)行的具身智能餐飲大模型,核心目標(biāo)是更好地理解用戶需求。

當(dāng)你說出一句模糊需求——比如「我想來一杯熱帶風(fēng)情的咖啡」——系統(tǒng)會在毫秒級調(diào)取完整的飲品知識體系,覆蓋公開菜單、配方邏輯與標(biāo)準(zhǔn)化制作 SOP,并理解「熱帶風(fēng)情」意味著椰子、熱帶水果、冰感與較高甜度。
接下來,大模型會調(diào)用口味拼配算法,在現(xiàn)有原料約束下尋找最優(yōu)解:比例如何控制?先加什么、后加什么,才能在不破壞咖啡骨架的前提下,呈現(xiàn)「熱帶」風(fēng)味?
這些原本高度依賴咖啡師經(jīng)驗與手感的判斷,被轉(zhuǎn)化為一組可計算、可推演的決策過程。算法甚至「知道」一些已經(jīng)被反復(fù)驗證的美味公式,如生椰與拿鐵是絕配。
最終,你的抽象需求會被翻譯成一連串精確到秒的動作調(diào)用:咖啡液多少秒、椰乳多少秒,冰、糖與水如何配合。每一個動作,都是機(jī)器人已經(jīng)掌握的能力模塊,可以被反復(fù)調(diào)用、穩(wěn)定復(fù)現(xiàn)。
在「攬客」上,AI 數(shù)字人承擔(dān)「意圖入口」的角色。它具備長記憶能力,能識別老顧客與偏好——「Hi,Thomas,還是要上次的橙 C 冰美式嗎?」甚至能在連續(xù)對話中保持上下文一致。

數(shù)字人還能根據(jù)狀態(tài)做出情境化推薦,如夜深時建議一杯 double 濃縮。結(jié)合 AIGC,用戶「隨口一說」的創(chuàng)意,也能被實時「打印」成咖啡印花。

將自拍變成獨一無二的咖啡印花。
如果說「大腦」解決的是「邏輯上該怎么做」,那么影智XBOT操作系統(tǒng)(LU BAN OS)要解決的是在真實世界中能不能這么做——這是雙臂機(jī)器人實現(xiàn)落地的關(guān)鍵一環(huán)。
它更像一套神經(jīng)中樞。當(dāng)「大腦」給出高層指令后,OS并非簡單轉(zhuǎn)發(fā),而是介入執(zhí)行層,在復(fù)雜的真實環(huán)境中進(jìn)行全局編排:統(tǒng)一調(diào)度機(jī)械臂、咖啡機(jī)、奶泡器、糖漿泵、制冰機(jī)、印花機(jī)等設(shè)備,確保每一個步驟、每一個動作,都發(fā)生在安全、合理且可控的物理條件之內(nèi)。
做出一杯咖啡,看似線性的流程,背后其實是一套高并發(fā)的任務(wù)調(diào)度系統(tǒng)。通過底層運(yùn)動算法,OS實現(xiàn)了雙機(jī)械臂的空間解耦與時間同步。即便在狹窄的操作空間內(nèi),兩只手臂也能在毫秒級反饋下實時避障,像人類雙手一樣默契配合。
OS真正強(qiáng)大的地方,在于賦予了雙臂「柔性作業(yè)」的能力。在不同調(diào)度策略下,雙臂可以進(jìn)行高度非對稱的協(xié)同,互不干擾地同時制作兩款完全不同的飲品。

在寫字樓早高峰,OS可以同時處理一杯熱美式和一杯冰拿鐵,將單杯等待時間大幅壓縮。
與此同時,OS還會持續(xù)監(jiān)控設(shè)備狀態(tài),記錄運(yùn)行數(shù)據(jù),提前識別潛在異常,并為下一單完成預(yù)準(zhǔn)備,等等。正是這套全局感知與調(diào)度能力,使影智XBOT即便在無人值守的情況下,也能長期穩(wěn)定地支撐高并發(fā)出杯。
當(dāng)這套通用底座逐漸成熟,咖啡也就不再是它的唯一應(yīng)用場景。冰淇淋、奶茶、雞尾酒、面食,乃至教育、陪伴等更廣泛的消費(fèi)與服務(wù)領(lǐng)域,本質(zhì)上都只是同一套具身智能系統(tǒng)之上的「技能插件」。
在此之下,「小腦」承擔(dān)的是具身智能中最貼近物理世界的一層任務(wù):在液體流動、奶泡阻力與原料狀態(tài)不斷變化的真實環(huán)境中,依然把口味與視覺表現(xiàn)鎖定在同一標(biāo)準(zhǔn),實現(xiàn)真正意義上的「萬杯如一」。
在硬件層面,團(tuán)隊自研雙六軸定制工業(yè)機(jī)械臂,重復(fù)定位精度達(dá)到±0.03 毫米;配合高精度運(yùn)控算法,整體操作精度達(dá)到 0.1毫米,遠(yuǎn)超人類生理極限。
在萃取階段,粉量誤差被壓縮至極小范圍。糖漿添加與拉花動作被控制在毫米級精度。拉花時,機(jī)械臂的移動速度與噴頭擠出節(jié)奏始終保持同步,一旦感知到液體阻力或流速偏移,系統(tǒng)便即時修正電機(jī)輸出,確保線條連續(xù)、不抖動。

為了教會機(jī)器人各種餐飲手藝,比如「審美級」拉花能力,團(tuán)隊搭建了一套頂級紅外光學(xué)動捕系統(tǒng)。

75秒內(nèi)復(fù)刻大師級的拉花咖啡技藝。機(jī)器人6個小時就能掌握一款新的拉花方式,而人類咖啡師需要6個月。
通過 11 組高精度攝像頭,將頂級咖啡師最細(xì)微的手部擺動與力度變化,以毫米級精度完整記錄下來,再借助自研算法,將這些大師級技巧翻譯為機(jī)械臂可執(zhí)行的控制指令,還實現(xiàn)了跨型號的自動校準(zhǔn)。
最終,原本只存在于老師傅經(jīng)驗中的「手感」,被沉淀為可規(guī)模復(fù)制、穩(wěn)定復(fù)現(xiàn)的工業(yè)級能力。
設(shè)計美學(xué) × 商業(yè)策略:
讓具身智能真正成為一門生意
如果說,技術(shù)解決的是「能不能把事做對」,那么工業(yè)設(shè)計解決的,其實是「這東西能不能被真正用起來」。而后一個問題,才是 2B 商家是否掏出真金白銀的分水嶺。
商家的目標(biāo)很簡單,用盡可能確定、低摩擦的方式賺錢。因此,影智XBOT是否能夠被設(shè)計成一臺全年無休、穩(wěn)定運(yùn)轉(zhuǎn)的生產(chǎn)設(shè)備,是否能持續(xù)替代人力,把那些瑣碎、重復(fù)、長期消耗精力的管理問題一并吞掉,遠(yuǎn)比「看起來有多先進(jìn)」更重要。
也正因如此,作為少數(shù)同時拿下 iF、紅點 Best of the Best、IDEA、CMF 等國際設(shè)計大獎的團(tuán)隊,影智科技并沒有把工業(yè)設(shè)計當(dāng)作外觀層面的加分項,而是將其視為一套用于降低商業(yè)摩擦成本的方法論。
這種思路,最先落到一個極其「現(xiàn)實」的指標(biāo)上:空間效率。
通過高度緊湊的內(nèi)部架構(gòu),影智XBOT將機(jī)械臂、咖啡機(jī)、制冰機(jī)、印花機(jī)等完整模塊,壓縮進(jìn)約 1.35㎡–2.5㎡ 的占地范圍內(nèi)。在寸土寸金的商業(yè)環(huán)境中,這是直接影響坪效、租金模型,甚至點位是否成立的關(guān)鍵變量。

設(shè)計并未止步于「塞得下」,而是與商業(yè)運(yùn)維深度綁定。
通過全模塊化架構(gòu),將復(fù)雜硬件拆解為標(biāo)準(zhǔn)化服務(wù)組件,故障模塊可在60 分鐘內(nèi)快拆更換;配合遠(yuǎn)程 OTA,實現(xiàn)系統(tǒng)、動作路徑與配方的一鍵升級。同時,預(yù)留擴(kuò)展接口,支持未來擴(kuò)容料倉或接入其他服務(wù)設(shè)備,讓單體機(jī)器不被功能鎖死,具備持續(xù)演進(jìn)的商業(yè)彈性。

在商業(yè)模式上,影智科技并未停留在「賣一臺機(jī)器」,而是搭建了一套更貼近真實商業(yè)世界的三層結(jié)構(gòu):設(shè)備銷售、聯(lián)營模式,以及持續(xù)性的增值服務(wù)。
其中,「7S」服務(wù)體系是一個首創(chuàng)。通過將大量原本由運(yùn)營者承擔(dān)的風(fēng)險前移至平臺側(cè),釋放出一個明確信號:咖啡機(jī)器人并不是在「與人搶工作」,而是在用技術(shù)降低創(chuàng)業(yè)門檻,讓小生意重新變得可控。它瞄準(zhǔn)的,正是那些有創(chuàng)業(yè)意愿、卻缺乏技術(shù)、管理與抗風(fēng)險能力的中小創(chuàng)業(yè)者——過去,這類人往往在高啟動成本與不確定風(fēng)險中迅速出局。
在傳統(tǒng)「4S」基礎(chǔ)上,「7S」補(bǔ)齊了三項關(guān)鍵能力:用數(shù)據(jù)運(yùn)營替代經(jīng)驗判斷;通過金融服務(wù),將近 20 萬元的初始投入拆解為更輕量的運(yùn)營方案;通過回購與升級機(jī)制,賦予設(shè)備流動性與持續(xù)迭代空間,明確機(jī)器人是一種可持續(xù)優(yōu)化的資產(chǎn),而非一次性消耗品。

把具身智能先安放在當(dāng)下
如果說人形機(jī)器人代表的是遠(yuǎn)方,那么影智科技更像是把具身智能先安放在當(dāng)下。
它代表了另一類具身智能公司:不沉迷概念敘事,也不等待終極形態(tài),而是用當(dāng)下可行的技術(shù),在復(fù)雜、開放、不可控的真實世界中,反復(fù)驗證可復(fù)制的商業(yè)模式。
從底層運(yùn)控算法、工業(yè)設(shè)計,到產(chǎn)品形態(tài)與商業(yè)模式,影智科技在一條全鏈路上不斷打磨同一個問題——當(dāng)具身智能真正進(jìn)入現(xiàn)實生活,它如何成為一門成立的生意。至少在咖啡這門生意里,這個問題已經(jīng)有了被市場驗證的答案。
也許正是這些并不「人形」、卻能持續(xù)運(yùn)轉(zhuǎn)的「中間態(tài)」產(chǎn)品,正在把具身智能從想象中的未來,一步步帶進(jìn)現(xiàn)實世界。











