人工智能助手在回答用戶問題時偶爾會出現看似合理卻錯誤的內容,這種現象被形象地稱為"幻覺"。J.P.Morgan人工智能研究院的最新研究從全新視角切入,發現通過優化提問方式可以顯著降低這類錯誤的發生概率。該研究團隊在arXiv平臺發布的論文顯示,問題本身的表達方式對AI回答的可靠性具有決定性影響。
研究團隊對近37萬個真實用戶提問展開分析,覆蓋13個主流問答數據集。通過構建包含17個維度的語言特征分析體系,研究人員發現問題的結構特征、詞匯選擇和邏輯表達方式都會直接影響AI的回答質量。這顛覆了傳統認知——過去普遍認為AI幻覺主要源于模型缺陷或解碼策略問題。
在風險特征識別方面,研究繪制出詳細的"問題風險圖譜"。模糊性表達被證實為首要風險因素,例如詢問"特斯拉相關信息"時,AI可能混淆公司、產品或發明家等不同概念。復雜句式同樣構成挑戰,包含多層條件從句的問題會使AI難以鎖定核心詢問點。否定句式則因增加邏輯推理難度,導致AI更容易出現偏差。
有趣的是,某些人類認為困難的語言特征對AI影響較小。研究顯示,罕見專業術語、最高級表達等特征,AI反而能夠較好處理。這表明人機認知機制存在本質差異,優化交互方式需要針對AI特性進行專門設計。
降低錯誤概率的有效策略包括:在問題中添加具體約束條件,如明確時間范圍、實體屬性等;使用"總結""比較"等明確指令動詞;提前澄清可能產生歧義的詞匯。實驗表明,經過優化的問題表述可使AI幻覺發生率降低40%以上。這種改進無需調整模型架構,僅通過改變提問方式即可實現。
不同任務類型呈現差異化風險模式。提取類任務因有明確參考依據,風險最低;選擇類任務受干擾項影響,風險居中;需要創造性回答的抽象類任務風險最高,其中44.5%的問題被標記為高風險。值得注意的是,問題長度的影響具有任務依賴性——在抽象任務中,問題越長風險越高;而在提取任務中,長度影響可忽略不計。
語言特征之間存在復雜的相互作用網絡。研究將17個特征劃分為三大群組:語法復雜度群組(包含句子長度、從句數量等)、語義明確性群組(包含意圖清晰度、可回答性等)和模糊性群組(包含多義詞、語境缺失等)。其中語法復雜度與風險呈負相關,適度的結構復雜反而能提供更多上下文線索。
風險預測模型展現出強大的泛化能力。通過交叉驗證發現,核心風險特征在不同數據集和應用領域均保持穩定關聯。這種穩定性為開發通用型問題優化工具奠定了基礎,相關模型已能實現70%左右的風險預測準確率。
領域特異性研究帶來意外發現。在AI訓練數據充足的領域(如計算機科學),專業問題的風險反而低于日常問題;而在訓練數據稀缺的領域,專業術語確實會增加回答不確定性。這提示用戶需要評估AI對特定領域的熟悉程度,合理調整預期。
基于這些發現,研究團隊提出三項實用建議:提問時添加具體限定詞,使用明確的指令動詞,主動消除潛在歧義。這些策略不僅適用于通用AI助手,也可為專業領域的人機交互提供指導。隨著AI技術普及,掌握"提問藝術"正在成為重要的數字素養,簡單的表達優化就能顯著提升人機協作效率。











