在人工智能技術快速發展的當下,如何讓AI代理完成復雜的信息檢索任務成為學界關注的焦點。愛丁堡大學與格拉斯哥大學聯合研究團隊通過系統性實驗,在arXiv平臺發布最新成果,首次揭示了不同文本搜索方法在深度研究場景中的真實表現差異,為優化AI信息處理能力提供了新思路。
深度研究被定義為AI版的調查記者工作,要求系統通過多輪搜索、推理和信息整合來解答復雜問題。研究團隊采用BrowseComp-Plus數據集進行測試,該數據集包含830個需要深度思考的問題,并提供固定文檔庫和人工驗證的相關性判斷,確保所有測試方法在相同條件下競技。實驗選取gpt-oss-20b和GLM-4.7-Flash兩個開源AI代理,搭配BM25、SPLADE-v3等四大類搜索方法,以及monoT5-3B等三種排序優化工具,構建了完整的測試框架。
實驗發現顛覆了傳統認知:誕生于1990年代的傳統關鍵詞搜索方法BM25,在段落級信息處理中展現出驚人實力。當gpt-oss-20b代理使用BM25搜索短段落時,準確率達到57.2%,超越所有參數量達數十億的神經網絡方法。研究人員指出,AI代理傾向于使用包含精確匹配要求的關鍵詞查詢,這種風格與BM25的匹配機制高度契合。通過調整文檔長度標準化參數,BM25在完整文檔處理中的性能提升幅度超過70%,證明傳統方法經過適當調優仍具競爭力。
在信息處理單元的選擇上,研究證實將長文檔切分為短段落具有顯著優勢。這種方法不僅減少AI代理的"工作記憶"占用,還能避免信息截取損失,使搜索準確率提升8.4%。對于工作空間較小的模型,這種提升效果更為明顯。實驗同時表明,為段落處理額外配備完整文檔閱讀器反而會降低效果,說明短段落本身已能滿足信息獲取需求。
二次排序策略的有效性得到充分驗證。采用BM25初步篩選配合monoT5-3B重排序的組合,在保持較低計算成本的同時,達到68.9%的準確率,接近商業頂級模型GPT-5的70.1%。研究顯示,重排序深度與效果呈正相關,但存在邊際收益遞減規律。值得注意的是,基于推理的重排序方法Rank1-7B在關鍵詞查詢場景中表現不佳,反映出訓練數據與應用場景的適配性問題。
查詢風格對搜索效果的影響超出預期。AI代理發出的網絡搜索風格查詢與神經網絡模型訓練使用的自然語言問題存在顯著差異,導致先進模型在實際應用中表現打折。研究團隊開發的查詢到問題轉換方法,通過將關鍵詞查詢轉換為自然語言格式,使SPLADE-v3的召回率提升7.34%。這種轉換在結合AI代理推理上下文時效果更佳,說明理解查詢意圖比單純格式轉換更重要。
在技術經濟性分析中,研究團隊強調平衡計算資源與效果的重要性。實驗表明,通過合理組合不同規模的技術組件,可以在控制成本的同時實現接近頂級性能。段落級處理不僅提升準確性,還通過減少單次處理量降低計算需求,這種特性在資源受限環境中尤為寶貴。重排序深度的選擇實驗則揭示,實際應用中需要根據具體需求確定最優參數設置。
針對文檔長度處理的技術細節,研究發現BM25的參數設置具有決定性影響。將文檔長度標準化參數b從默認值0.4調整至0.87后,性能提升幅度超過70%。系統性的參數網格搜索顯示,處理該數據集時較大的b值通常更有效,而k1值在較大范圍內都能保持穩定表現。這些發現為傳統搜索方法的現代化應用提供了重要參考。
完整文檔閱讀器的實際作用呈現情境依賴性。在完整文檔處理中,該工具能補償信息截取損失,使準確率提升5.3個百分點。但在段落級處理場景下,其作用變得有限甚至產生輕微負面影響。這表明輔助工具的配置需要與基礎架構特點相匹配,避免功能重疊導致的決策干擾。
該研究通過830個復雜問題的系統性測試,揭示了文本搜索技術在深度研究場景中的多維度表現規律。從傳統方法的現代化調優到查詢風格的適配性改進,從信息處理單元的選擇到技術組合的經濟性分析,這些發現為優化AI信息檢索系統提供了全面指導。隨著AI代理在專業領域的廣泛應用,這類基礎研究對于提升技術實用價值具有重要意義。










