計算機視覺領域正迎來一場由推理擴展技術驅動的范式變革。隨著大語言模型通過測試時計算擴展(Test-time Scaling)在邏輯推理層面實現突破,視覺智能的研究重心正從靜態像素分析轉向動態世界建模。這種轉變標志著視覺系統從"被動感知"向"主動認知"的跨越,為構建具備人類級空間理解能力的AI模型開辟了新路徑。
2026年6月,第二屆計算機視覺推理擴展研討會(ViSCALE 2026)將在美國舉行。本屆會議由清華大學、普林斯頓大學、加州大學圣克魯茲分校及新加坡國立大學等機構聯合主辦,聚焦如何通過計算資源動態分配突破現有視覺模型的性能瓶頸。繼首屆會議開創性地將TTS技術引入視覺領域后,本屆研討會將深入探討物理世界建模、三維空間推理等前沿課題。
會議核心議題涵蓋四大方向:在物理世界建模領域,研究者將探索如何利用測試時擴展技術提升視頻生成的時空連貫性與因果推理能力;空間認知方向則致力于突破二維平面限制,使模型具備三維環境中的導航與操作直覺;借鑒大語言模型的思維鏈機制,視覺思維鏈(Visual CoT)研究將推動模型實現多步推理與自我修正;會議還將首次系統探討視覺推理性能與計算量之間的量化關系,為模型優化提供理論依據。
學術陣容方面,Sergey Levine、Manling Li、Ziwei Liu等國際知名學者已確認參會。這些來自學術界與產業界的頂尖研究者將圍繞具身智能、自動駕駛等應用場景展開跨界對話,特別關注長時序空間推理、統一模型架構等關鍵技術挑戰。會議設置的專題討論環節,將為跨學科創新提供碰撞平臺。
為促進原始創新,主辦方現面向全球征集研究論文。征稿范圍包括但不限于:TTS算法的理論突破、世界模型在復雜決策中的應用、具身智能系統的時空推理機制、視覺思維鏈的可解釋性研究,以及推理擴展帶來的模型安全性問題。投稿類型分為正式論文(8頁,需存檔)和擴展摘要(4頁,非存檔)兩類,均要求使用CVPR 2026官方模板。
重要時間節點已確定:投稿截止日期為2026年3月10日(任意時區),錄用通知將于3月18日發出。會議采用線上線下混合模式,主體活動安排在6月3日或4日下午舉行。這項前沿技術盛會為研究者提供了展示創新成果的頂級平臺,詳細投稿指南可訪問會議官網獲取。








