在具身智能數(shù)據(jù)采集領(lǐng)域,一項突破性技術(shù)方案引發(fā)關(guān)注。螞蟻數(shù)科天璣實驗室團隊研發(fā)的AoE(Always-On Egocentric)持續(xù)性第一人稱視頻采集框架,以“手機+頸掛式支架”的輕量化組合,成功替代了傳統(tǒng)價值數(shù)萬美元的專業(yè)設(shè)備,將具身數(shù)據(jù)采集成本壓縮至20美元以內(nèi)。這一創(chuàng)新不僅解決了規(guī)模化采集的硬件門檻問題,更通過端云協(xié)同技術(shù)實現(xiàn)了數(shù)據(jù)處理的自動化閉環(huán),相關(guān)研究成果已發(fā)表于預(yù)印本平臺Arxiv。
技術(shù)核心在于將人體轉(zhuǎn)化為“移動數(shù)據(jù)工廠”。研發(fā)團隊設(shè)計的頸掛式支架采用人體工學(xué)設(shè)計,通過磁吸與機械夾具雙重固定方式,確保手機在胸前穩(wěn)定采集第一人稱視角畫面。這種持續(xù)記錄模式完整保留了人與環(huán)境的自然交互過程,配合端側(cè)輕量級視覺模型,可實時識別手部動作與物體接觸狀態(tài),在保持毫米級軌跡精度的同時,實現(xiàn)90%以上的手部關(guān)鍵點識別準確率。實測數(shù)據(jù)顯示,在Unitree G1機器人關(guān)電腦任務(wù)中,引入200條AoE采集數(shù)據(jù)后,模型成功率從45%飆升至95%,驗證了低成本數(shù)據(jù)對模型訓(xùn)練的顯著提升作用。
數(shù)據(jù)轉(zhuǎn)化環(huán)節(jié)的突破同樣關(guān)鍵。研究團隊構(gòu)建了“長視頻-訓(xùn)練數(shù)據(jù)”的轉(zhuǎn)化管道:首先通過端側(cè)模型自動識別交互行為觸發(fā)錄制,再利用多模態(tài)大模型將連續(xù)視頻切割為帶語義標簽的原子動作片段,最終經(jīng)云端自動標注系統(tǒng)完成數(shù)據(jù)清洗。這套流程使手機錄制的原始視頻可直接轉(zhuǎn)化為標準化訓(xùn)練數(shù)據(jù),解決了非結(jié)構(gòu)化視頻難以直接用于模型訓(xùn)練的行業(yè)痛點。更值得關(guān)注的是,該方案支持數(shù)千臺設(shè)備并發(fā)采集,配合云端調(diào)度系統(tǒng),單日可處理數(shù)萬小時視頻數(shù)據(jù),吞吐量較傳統(tǒng)人工標注提升百倍。
這項技術(shù)突破的背后,是螞蟻數(shù)科在AI toB領(lǐng)域的持續(xù)深耕。其天璣實驗室以“AI+產(chǎn)業(yè)”為戰(zhàn)略方向,在數(shù)據(jù)、安全、金融及具身智能四大領(lǐng)域布局技術(shù)轉(zhuǎn)化。2026年以來,該機構(gòu)先后成立大模型技術(shù)創(chuàng)新部,并宣布推出企業(yè)級大模型產(chǎn)品。此次發(fā)布的AoE框架,正是其“讓AI技術(shù)扎根真實場景”理念的典型實踐——通過降低數(shù)據(jù)采集門檻,為具身智能在工業(yè)維修、家庭服務(wù)、醫(yī)療護理等場景的落地提供關(guān)鍵基礎(chǔ)設(shè)施支持。











