當用戶用中文向ChatGPT詢問“2024年春節后第100天是哪天”時,得到的答案偶爾會出現偏差,而同樣的問題用英語提問時準確率卻顯著更高。這種因語言差異導致的時間推理錯誤現象,引發了跨學科研究團隊的關注。由阿伯丁大學與格勒諾布爾阿爾卑斯大學聯合開展的研究,通過構建全球首個多語言時間推理基準測試,揭示了人工智能處理時間信息時面臨的深層挑戰。
研究團隊開發的MULTITEMPBENCH測試集包含1.5萬個樣本,覆蓋英語、德語、中文、阿拉伯語和豪薩語五種語言,以及公歷、伊斯蘭歷、農歷三種歷法系統。實驗涉及20個主流大語言模型,要求完成日期計算、時區轉換、時間關系判斷等復雜任務。結果顯示,所有模型在豪薩語等低資源語言上的錯誤率平均比英語高42%,非公歷系統的處理準確率更是不足公歷的60%。
詞匯切分機制成為首個突破口。研究發現,英語日期“2024-03-15”在高資源語言模型中通常被正確拆分為“2024”“03”“15”三個核心單元,而低資源語言模型可能將其切割為“2”“0”“2”“4”等碎片。這種差異導致豪薩語的日期碎片化比率高達0.78,而英語僅為0.53。研究團隊設計的幾何探測技術進一步發現,高資源語言模型能在神經網絡中形成清晰的時間線性結構,相鄰年份的向量表示在高維空間中保持有序排列,這種結構在低資源語言中則呈現混亂狀態。
實驗數據揭示了雙重作用機制:在英語等訓練數據充足的語言中,模型即便遭遇切分錯誤,仍能通過上下文重組時間信息,此時內部表征質量成為決定因素;而在豪薩語等場景下,切分錯誤直接導致模型無法理解基本時間單元,詞匯處理問題占據主導地位。這種轉換現象在混合效應回歸分析中得到驗證,低資源語言中切分質量與任務準確率的相關系數達-0.97,形成強烈負向關聯。
研究團隊通過創新實驗設計確保結論可靠性。他們從現有數據集精選750個英語問題,經母語者翻譯驗證后擴展為多語言版本,每個問題生成8種日期格式變體,包括本地化表達和特定歷法形式。評估環節采用GPT-4o輔助評判與人工驗證相結合的方式,確保87%的自動評判結果與人工判斷一致。這種嚴謹設計使研究發現具有廣泛適用性,例如40億參數的Gemma 3模型在特定任務中超越了200億參數的GPT-OSS。
技術改進路徑已現雛形。研究人員建議開發專門的時間實體識別模塊,在切分前優先保護日期結構;通過增加低資源語言的時間文本數據,改善訓練集的歷法多樣性;在模型架構中引入獨立的時間推理單元,配合幾何監督訓練強化時間線性表征。這些方案為提升AI的時間理解能力提供了具體方向。
該研究對醫療、法律、金融等關鍵領域具有直接應用價值。在跨國醫療系統中,藥物服用時間、手術安排等環節若因語言差異導致時間計算錯誤,可能引發嚴重后果;金融交易中的時限判斷、法律文書中的時效規定,同樣需要精確的時間處理能力。研究提出的日期碎片化比率指標,為評估AI系統的多語言公平性提供了量化工具,幫助開發者定位模型弱點并進行針對性優化。
盡管研究揭示了重要規律,但團隊承認存在局限性。當前低資源語言樣本僅包含豪薩語,阿拉伯語等“偽低資源語言”可能掩蓋更細致的分布規律;零樣本測試設置未考慮提示優化等實際應用場景;數據構建方式依賴英語源問題,可能忽略文化特有的時間表達習慣。這些不足為后續研究指明了方向,特別是需要探索因果驗證實驗,區分相關性與直接作用關系。











