滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

越南新加坡聯合研究：選擇性引導技術為AI安全控制開啟新路徑

時間：2026-01-29 00:00:23 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

人工智能技術的快速發展，讓AI助手在日常生活中的應用越來越廣泛。然而，如何確保這些智能系統在面對復雜場景時依然遵守安全邊界，成為全球研究者關注的焦點。近期，一支跨國科研團隊提出了一種名為“選擇性引導”的創新技術，通過精準干預AI的決策過程，實現了對有害行為的實時控制，同時保持了系統的原有性能。

傳統方法在應對AI安全問題時，往往需要重新訓練整個模型，既耗時又可能影響其他功能。研究團隊另辟蹊徑，將AI模型的工作機制類比為工廠流水線，發現不同層次對應著語言理解、邏輯推理等不同功能。通過深入分析發現，AI在處理“有害”和“無害”請求時，中間層次的神經元激活模式呈現“正負相反”的特征，就像工廠中專門負責質檢的關鍵環節。研究人員將這些層次定義為“判別層”，并證實只需調整這些區域即可有效控制行為。

數學實現上的突破是該技術的核心創新。早期調整方法在改變信息方向時，會無意中破壞信息總量，導致輸出混亂。研究團隊通過嚴格的數學推導，開發出基于“旋轉”的調整方法，如同在二維平面上精準轉動方向盤而不改變車速。這種操作既能保持信息流的穩定性，又具備可逆性，允許隨時撤銷調整效果，為系統安全性提供了雙重保障。

實驗驗證覆蓋了九個主流AI模型，包括Llama、Qwen和Gemma三大系列，參數規模從15億到90億不等。測試結果顯示，新技術在小型模型上的行為控制成功率比傳統方法提升5.5倍，在Qwen2.5-1.5B模型上從13.46%躍升至74.04%。更關鍵的是，所有模型在數學推理、常識問答等核心能力測試中均保持了原始水平，徹底解決了傳統方法“治標不治本”的缺陷。

對比實驗進一步證明了精準定位的重要性。當隨機選擇調整層次時，系統成功率接近零；即使選擇所有層次，雖然能改變行為，但會導致輸出大量無意義文本。而數學精確性同樣關鍵，在相同判別層選擇下，有缺陷的舊方法在Qwen2.5-3B模型上完全失效，新方法卻達到84.6%的成功率。這些數據清晰地表明，每個技術環節都不可或缺。

該技術的實時調整特性具有顯著應用價值。相比需要數周重新訓練的傳統方案，選擇性引導可在AI運行時即時生效，大幅降低了安全控制的實施成本。研究團隊已公開所有代碼和實驗細節，這種開放態度將加速技術迭代。目前，團隊正在探索更復雜的特征提取方法，以應對不同架構AI模型的特殊需求，例如某些模型呈現出的雙峰控制模式暗示可能存在多重決策機制。

這項突破為AI安全領域提供了全新范式。通過深入解析AI的“思考過程”，研究者找到了既保持智能水平又約束行為的平衡點。計算復雜度從原來的與總層數相關，優化為僅與判別層數量相關，這種效率提升使得技術具備大規模應用潛力。正如研究論文所展示的，當精密手術取代整體重建，AI安全控制終于找到了可靠的技術路徑。

更多>同類資訊

科技賦能新春歸途：智慧加能站讓返鄉之路更高效暖心又便捷

02-20

英偉達300億美元投資OpenAI，或取代去年千億長期投資承諾

02-20

Linux內核提前布局：PCIe 7.0適配工作啟動，為未來硬件生態筑基

02-20

春晚機器人“頂流”再引熱潮：宇樹科技憑何連續站上全球焦點？

如果只盯著動作看，宇樹這一年的變化已經很驚人：去年還是偏節奏化、低速協同的秧歌舞，今年已經進化到高速穿插、強動態、復雜器械的武術表演。節目中的相對定位與環境交互，跑酷翻桌動作要求機器人在高速運動中精準判斷…

02-20

港股馬年首日AI熱：智譜大漲市值破3232億，MINIMAX同飆升超3000億

02-20

科技賦能春運新圖景：智慧加能站解鎖返鄉路高效暖心新體驗

02-20

死神降臨！Anthropic上周引發SaaS末日

02-20

智譜AI港股尾盤股價漲超42% 總市值突破 3232 億港元

02-20

大年初四科研新突破！我國科學家借AI解鎖暗弱天體，刷新深空探測紀錄

大年初四，我國科學家又一項科研成果發表——探索遙遠暗弱的天體與結構，是破解宇宙起源演化、物質能量循環等科學謎題的關鍵。我國科學家基于計算光學原理與人工智能算法，開發出天文AI模型“星衍”，可解鎖暗弱天體信號，…

02-20

我國科學家研發“星衍”模型解鎖暗弱天體刷新深空探測極限

研究顯示，將星衍應用于詹姆斯·韋布空間望遠鏡，覆蓋波段可從可見光（約500納米）延伸到中紅外（5微米），并將其深空探測深度提升1個星等，探測準確度提升1.6個星等——這相當于將空間望遠鏡等效口徑從約6米提升到…

02-20

計算光學與AI助力，“星衍”模型解鎖130億光年外深空影像

探索遙遠暗弱的天體與結構，是破解宇宙起源演化、物質能量循環等科學謎題的關鍵。我國科學家基于計算光學原理與人工智能算法，開發出天文AI模型“星衍”，可解鎖暗弱天體信號，探測到超過130億光年的星系，并獲取目前國…

02-20

星衍模型解鎖宇宙奧秘：我國科學家繪制國際最優深空影像探早期星系

我國科學家基于計算光學原理與人工智能算法，開發出天文AI模型“星衍”，可解鎖暗弱天體信號，探測到超過130億光年的星系，并獲取目前國際已知探測最深的深空影像。《科學》審稿人評價，該研究為探測宇宙提供了“強大…

02-20

我國科學家研發天文AI模型“星衍” 解鎖暗弱天體繪就深空探測新畫卷

02-20

我國科學家開發天文AI模型“星衍” 解鎖暗弱天體繪就深空新畫卷

02-20

清華團隊“星衍”模型突破天文觀測極限助力探索宇宙黎明奧秘

02-20

點擊查看更多 +

全站最新

比亞迪122度磷酸鐵鋰刀片電池登場！三大創新解決痛點，開啟電動出行新時代

經典重現！伏爾加借力長安汽車，俄羅斯汽車市場再掀新波瀾

年后手機圈大戲開場！OPPO Find X9 Ultra與vivo X300 Ultra影像對決誰更強？

年后手機圈“卷”影像！OPPO Find X9 Ultra與vivo X300 Ultra攜增距鏡來襲

美國總統特朗普：政府停擺沖擊經濟，呼吁美聯儲降息

谷歌Gemini 3.1 Pro發布：推理能力躍升，AI競爭格局或迎新變局

熱門內容

本欄最新

科技賦能新春歸途：智慧加能站讓返鄉之路更高效暖心又便捷

科技賦能春運新圖景：智慧加能站解鎖返鄉路高效暖心新體驗

科技賦能春運新圖景：智慧加能站助力返鄉路高效暖心共赴團圓

蘇州制造企業如何選畫冊設計機構？看懂大廠案例背后的專業邏輯

春晚舞臺上的“魔法時刻”：具身智能落地，機器人開啟真實服務新篇

探秘未來汽車“智慧能源大腦”：整車智能能量管理控制全解析

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

越南新加坡聯合研究：選擇性引導技術為AI安全控制開啟新路徑