滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

阿伯丁大學研究：AI時間推理受阻，雙重機制影響多語言處理能力

時間：2026-03-30 19:48:02 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

當用戶用中文向ChatGPT詢問“2024年春節后第100天是哪天”時，得到的答案偶爾會出現偏差，而同樣的問題用英語提問時準確率卻顯著更高。這種因語言差異導致的時間推理錯誤現象，引發了跨學科研究團隊的關注。由阿伯丁大學與格勒諾布爾阿爾卑斯大學聯合開展的研究，通過構建全球首個多語言時間推理基準測試，揭示了人工智能處理時間信息時面臨的深層挑戰。

研究團隊開發的MULTITEMPBENCH測試集包含1.5萬個樣本，覆蓋英語、德語、中文、阿拉伯語和豪薩語五種語言，以及公歷、伊斯蘭歷、農歷三種歷法系統。實驗涉及20個主流大語言模型，要求完成日期計算、時區轉換、時間關系判斷等復雜任務。結果顯示，所有模型在豪薩語等低資源語言上的錯誤率平均比英語高42%，非公歷系統的處理準確率更是不足公歷的60%。

詞匯切分機制成為首個突破口。研究發現，英語日期“2024-03-15”在高資源語言模型中通常被正確拆分為“2024”“03”“15”三個核心單元，而低資源語言模型可能將其切割為“2”“0”“2”“4”等碎片。這種差異導致豪薩語的日期碎片化比率高達0.78，而英語僅為0.53。研究團隊設計的幾何探測技術進一步發現，高資源語言模型能在神經網絡中形成清晰的時間線性結構，相鄰年份的向量表示在高維空間中保持有序排列，這種結構在低資源語言中則呈現混亂狀態。

實驗數據揭示了雙重作用機制：在英語等訓練數據充足的語言中，模型即便遭遇切分錯誤，仍能通過上下文重組時間信息，此時內部表征質量成為決定因素；而在豪薩語等場景下，切分錯誤直接導致模型無法理解基本時間單元，詞匯處理問題占據主導地位。這種轉換現象在混合效應回歸分析中得到驗證，低資源語言中切分質量與任務準確率的相關系數達-0.97，形成強烈負向關聯。

研究團隊通過創新實驗設計確保結論可靠性。他們從現有數據集精選750個英語問題，經母語者翻譯驗證后擴展為多語言版本，每個問題生成8種日期格式變體，包括本地化表達和特定歷法形式。評估環節采用GPT-4o輔助評判與人工驗證相結合的方式，確保87%的自動評判結果與人工判斷一致。這種嚴謹設計使研究發現具有廣泛適用性，例如40億參數的Gemma 3模型在特定任務中超越了200億參數的GPT-OSS。

技術改進路徑已現雛形。研究人員建議開發專門的時間實體識別模塊，在切分前優先保護日期結構；通過增加低資源語言的時間文本數據，改善訓練集的歷法多樣性；在模型架構中引入獨立的時間推理單元，配合幾何監督訓練強化時間線性表征。這些方案為提升AI的時間理解能力提供了具體方向。

該研究對醫療、法律、金融等關鍵領域具有直接應用價值。在跨國醫療系統中，藥物服用時間、手術安排等環節若因語言差異導致時間計算錯誤，可能引發嚴重后果；金融交易中的時限判斷、法律文書中的時效規定，同樣需要精確的時間處理能力。研究提出的日期碎片化比率指標，為評估AI系統的多語言公平性提供了量化工具，幫助開發者定位模型弱點并進行針對性優化。

盡管研究揭示了重要規律，但團隊承認存在局限性。當前低資源語言樣本僅包含豪薩語，阿拉伯語等“偽低資源語言”可能掩蓋更細致的分布規律；零樣本測試設置未考慮提示優化等實際應用場景；數據構建方式依賴英語源問題，可能忽略文化特有的時間表達習慣。這些不足為后續研究指明了方向，特別是需要探索因果驗證實驗，區分相關性與直接作用關系。

更多>同類資訊

AI難擔數據科學大任？明尼蘇達大學研究：人機協作方為破局之道

03-30

90后華裔女將Cat Wu：以跨界之姿，引領Claude Code開啟加速迭代新篇

03-30

上海“AGI4S珠穆朗瑪計劃”啟航，以全要素協同托舉科學原創新高度

03-30

馬克·古爾曼爆料：iOS 27全新Siri應用將至，“擴展”功能或引AI交互新變革

03-30

NVIDIA力推800VDC電力架構為下一代AI數據中心注入新動力

03-30

4月19日人機同場競技！王興興：人形機器人半馬將突破1小時大關

03-30

北京互聯網法院判定：利用AI生成不實內容侵害名譽權需擔責

03-30

?最懂開發者的城市！上海已發布超150款備案大模型，集聚 30 萬 AI 人才

03-30

具身智能的“ChatGPT時刻”：宇樹科技王興興預測兩年內到來

03-30

DeepSeek已恢復服務：此前公告服務出現重大中斷

03-30

報告：AI 驅動的流量正在有效取代人類

03-30

生態環境部：人工智能賦能生態環境治理，監測監管雙提升成效顯著

在監測方面，人工智能技術正逐步深入嵌入生態環境監測，并實現業務化的應用，以生物多樣性識別為例，生態環境部現在通過鳥類圖像聲紋識別、植物物種圖像智能識別等技術，原本一年一次的監測，現在可以實現全年連續監測。 …

03-30

Deepoc具身模型開發板：讓采摘機器人“手眼腦”協同邁向智能新高度

Deepoc具身模型開發板通過引入VLA（視覺-語言-動作）模型架構，為采摘機器人構建了“手眼腦”協同的智能閉環，徹底打破了“看不清、抓不穩、想不明”的技術死結。當農戶發出“優先采摘紅透的番茄”這一模糊指令時…

03-30

華沿機器人（01021.HK）港股首掛漲超21% 獲高瓴等基石青睞前景可期

從日前招股階段的表現來看，香港公開發售方面，獲5059.38倍認購，公開發售的發售股份最終數量為1615.70萬股，占發售股份總數的約17.4%；合計獲得約22.71萬份有效申請，受理申請數目約6.63萬份…

03-30

廣東啟用人形機器人自動化產線年產能破萬柔性設計助力高效生產

IT之家 3 月 30 日消息，據人民財訊報道，全國首條年產能達萬臺級別的人形機器人自動化生產線于 3 月 29日在廣東正式啟用，標志著中國人形機器人產業率先邁入大規模量產新階段。 IT之家從報道獲悉，該產…

03-30

點擊查看更多 +

全站最新

圖解丨南下資金凈買入騰訊，凈賣出阿里和中芯國際

高盛：市場悲觀情緒接近極限一旦戰爭局勢降溫股市或大幅反彈

廣汽2025年年報:"新廣汽"輪廓逐漸清晰

賽克賽斯三闖IPO，專注于醫療器械領域，近5年累計分紅3.23億元

皇冠新材深主板IPO，聚焦復合材料領域，面臨原材料漲價風險

美股異動 | 力拓盤前漲超3% 恢復皮爾巴拉三處港口碼頭運營

熱門內容

本欄最新

長城汽車2025年營收創新高，高端化布局與研發投入共促穩健增長

中聯重科“巨無霸”起重機亮相隨州，核心技術突破助力智能工廠高效生產

李文正深度剖析：Agentic AI時代，AI大模型從“對話”邁向“多體協同”新征程

長安汽車巴西工廠竣工投產首輛本土制造UNI-T下線開啟拉美新征程

眾智FlagOS 2.0重磅登場：32款芯片全支持，八大突破引領智能體時代新發展

AI流量增速遠超人類，代理型AI崛起：互聯網商業與安全面臨雙重重構

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿伯丁大學研究：AI時間推理受阻，雙重機制影響多語言處理能力