在人與人的交流中,我們的目光常常聚焦于對方的眼睛,這不僅是情感傳遞的窗口,更是理解彼此意圖的重要途徑。然而,當環境變得嘈雜,視線便不自覺地轉向嘴唇,試圖通過唇形變化捕捉言語中的微妙信息。這種自然的交流方式,卻成為當前人形機器人研發中的一大挑戰——如何讓機器人的面部表情,尤其是唇部動作,更加自然流暢,成為跨越“恐怖谷效應”的關鍵。
哥倫比亞大學博士胡宇航創立的首形科技,正致力于破解這一難題。這家初創公司不走尋常路,將研發重心放在賦予機器人面部情緒表達能力上,而非追求運動或操作能力的極致。這一策略成效顯著,不僅贏得了多輪融資,更在社交媒體和市場上引發廣泛關注。近日,胡宇航團隊的研究成果登上《科學·機器人學》封面,展示了其研發的Emo面部機器人如何實現與語音、歌曲同步的唇部運動,標志著人臉機器人領域的一大突破。
胡宇航指出,嘴唇是面部動作最豐富的部位,其運動復雜性遠超想象。不同于眉毛等單一方向運動的面部特征,嘴唇由多個肌肉群驅動,運動過程中頻繁接觸與分離,對時間精度極為敏感,同時承載語言、情感與社交信號。這使得嘴唇運動的建模成為一項高維、非線性、強閉環的生成式形變問題,挑戰重重。
面對如此復雜的任務,如何客觀衡量機器人嘴唇運動的“真實性”成為關鍵。胡宇航團隊提出創新方法,利用合成參考視頻作為理想同步基準,在VAE編碼器的潛空間中計算機器人嘴唇運動與參考視頻之間的距離,從而刻畫整體嘴型動態與時序結構的偏差。這一方法避免了依賴易受噪聲干擾的二維關鍵點,為連續語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀度量標準。
傳統機器人嘴唇同步方法主要依賴手工預定義的運動規則和固定的音素-視位映射表,存在明顯局限。同一音素的發聲速度因說話人、場景或情緒而異,多語言、歌唱或方言等場景下基于音素設計規則需投入巨大手工工作量,且機器人硬件升級時所有動作幾乎需重新編排。這種方法隱含音素與嘴型穩定一對一映射的假設,與真實人類發音機制不符,導致生成嘴型序列“正確但僵硬”。
相比之下,數據驅動方法能夠從真實人類與機器人發音數據中學習復雜統計規律與隱含約束,突破規則方法在泛化性、可擴展性和自然性上的瓶頸。胡宇航團隊設計的兩階段“自監督學習系統”正是這一思路的體現:第一階段機器人“照鏡子”建立自我模型,明確自身硬件與軟體結構下可實現的運動;第二階段觀看人類視頻學習嘴唇運動規律,并通過自我模型將這些規律投射到自身可執行的動作空間中。
實驗結果顯示,該系統能在11種語言中實現自然的嘴唇同步,包括英語、法語、日語、韓語等。這一“跨語言”能力源于系統學習的是人類發音過程中更底層的肌肉運動模式,而非具體語言或音素。在兩階段自監督框架下,模型捕捉聲音節奏與嘴唇動作之間跨越語言邊界的共性規律,如張合節律、閉合-釋放結構等,從而適應多種語言、語速和說話風格。
盡管成果顯著,系統仍面臨技術挑戰,尤其是硬輔音(如/b/、/p/、/m/、/w/)的處理。這些音素發音速度快,涉及多重約束條件,如/b/、/p/、/m/需在極短時間內完成“閉合—保持—釋放”動作,/w/則要求雙唇閉攏、前突形成圓形,同時配合口腔形狀連續變化。模型需在毫秒級時間精度下協調多個高度耦合的自由度,應對軟體接觸、非線性阻尼等物理因素,難度極高。
當前方法在極端語音場景下表現欠佳,如語速極快、多人同時說話、歌唱顫音等。胡宇航認為,這反映了方法的本質邊界,即模型主要學習典型對話語境下聲學時序與嘴唇運動之間的關系。然而,這些失效案例也為未來研究指明了方向,隨著訓練數據豐富和模型能力提升,邊界場景處理能力有望逐步改善。
當被問及技術是否會從唇部動作擴展到整個面部表情系統時,胡宇航給出肯定回答。他表示,團隊最終目標是實現完整的類人交互,協調唇部動作與眼神、眉毛等其他面部要素,形成統一而細膩的情感表達。這不僅是技術上的自然延伸,更是對人機交互本質的深度探索。當機器人能夠用整張臉來表達和理解情緒時,它與人類的關系將發生更深刻的轉變。











