東京理工學院聯合多所高校的研究團隊近日取得一項突破性進展,其開發的DyaDiT技術為虛擬角色賦予了更接近人類社交能力的互動方式。這項創新成果通過分析對話雙方的語音、關系類型及性格特征,使數字人能夠生成符合情境的肢體語言,徹底改變了傳統虛擬角色互動模式單一、缺乏情感共鳴的現狀。
在真實社交場景中,人們會通過點頭、手勢、身體姿態等非語言方式傳遞信息,這些行為往往與對話內容、雙方關系及性格特質緊密相關。例如,外向者可能伴隨夸張的手勢,而內向者更傾向于用微笑或輕微點頭回應;戀人間的互動充滿親密感,陌生人則保持禮貌距離。然而,現有虛擬角色僅能根據自身語音生成固定手勢,無法感知對方反應或調整行為模式,導致互動顯得機械生硬。
研究團隊為攻克這一難題,構建了包含182小時真實雙人對話的"無縫交互數據集"。該數據庫覆蓋朋友、情侶、家人等不同關系類型,以及外向、內向等多元性格組合,為系統訓練提供了豐富的樣本。通過深度學習這些數據,DyaDiT技術掌握了人類社交的隱性規則,能夠根據對話情境動態調整虛擬角色的行為表現。
技術實現層面,系統采用擴散變換器架構,通過逐步細化生成動作序列。其核心創新包括"正交化交叉注意力機制"與"動作詞典":前者可精準分離對話雙方的語音信號,避免同時說話時的干擾;后者則將肢體語言拆解為1000種基礎動作單元,系統通過組合這些"詞匯"構建自然流暢的互動行為。例如,當檢測到對方表達困惑時,系統可能選擇攤手加皺眉的組合動作;面對積極反饋時,則生成點頭配合微笑的反應。
社交關系與性格特征的建模是該技術的另一亮點。系統借鑒心理學"大五人格理論",將性格維度轉化為可量化的參數,使外向者表現為更大膽的手勢,內向者呈現更含蓄的肢體語言。同時,通過分析對話中的語氣、用詞及互動頻率,系統能準確判斷雙方關系,并生成符合情境的親密程度——戀人間的互動可能包含更多眼神交流與身體接觸,而商務洽談場景則保持專業距離。
實驗數據顯示,73.9%的用戶認為DyaDiT生成的動作"像真人",69.8%的用戶肯定其能準確反映雙方關系,66.7%的用戶認可性格特征的呈現效果。部分測試者甚至表示,系統優化的動作比原始錄像更自然,這得益于算法對冗余抖動的過濾與動作流暢度的提升。消融實驗進一步驗證了各模塊的必要性:移除聲音分離模塊后,系統在多人對話中的表現下降27%;取消動作詞典則使動作多樣性減少41%。
這項技術已展現出廣泛的應用潛力。在游戲領域,非玩家角色(NPC)可根據玩家行為與關系動態調整反應,增強沉浸感;教育場景中,虛擬教師能通過肢體語言傳遞鼓勵或安撫信號;心理健康服務領域,虛擬治療師可模擬更人性化的互動模式;遠程協作平臺則能借助更自然的虛擬化身改善溝通體驗。當前系統主要生成上半身動作,未來研究將拓展至面部表情、步態等全身語言,并探索為對話雙方同步生成協調互動的技術路徑。
對于技術細節感興趣的讀者,可通過論文編號arXiv:2602.23165v1查閱完整研究報告,其中包含架構設計、算法原理及實驗數據的詳細分析。這項成果不僅推動了人機交互技術的進步,更引發關于"人性化數字世界"的深層思考——當虛擬角色開始理解社交規則、展現個性特質時,人類對自身獨特性的認知或許也將面臨新的挑戰。











