滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

清華等團隊創新AI訓練法："甜蜜點學習"讓智能體學習效率顯著躍升

時間：2026-02-04 03:51:53 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

清華大學聯合小米公司、浙江大學、南洋理工大學及中科院自動化所的研究團隊，在人工智能訓練領域取得突破性進展。他們提出的"甜蜜點學習"（Sweet Spot Learning, SSL）方法，通過引入分層獎勵機制，顯著提升了智能體在復雜任務中的學習效率。這項研究成果已發表于學術平臺arXiv，編號為2601.22491v1。

研究靈感源自網球運動中的"甜蜜點"概念——球拍上能產生最佳擊球效果的特定區域。團隊將這一理念應用于AI訓練，認為通過引導智能體聚焦高質量解決方案區域，可以突破傳統二元獎勵機制的局限。傳統方法僅以"成功/失敗"評判結果，導致智能體難以理解任務本質，容易陷入低效探索或依賴偶然成功模式。

新算法構建了多層級獎勵體系，將解決方案空間劃分為不同質量等級。以手機界面操作為例，點擊位置越接近目標中心，獲得的獎勵值越高；在數獨任務中，每正確填充一個數字都會獲得部分獎勵，引導智能體逐步完成全局推理。這種設計使智能體不僅能判斷對錯，還能感知解決方案的優劣程度。

實驗數據顯示，該方法在12個基準測試中均表現優異。在安卓界面控制任務中，30億參數模型的成功率從75.62%提升至82.41%；長期規劃任務中，相同規模模型的成功率提高14.6%；數獨求解準確率更是實現翻倍增長。特別值得注意的是，使用40%訓練數據的SSL模型即可達到傳統方法100%數據量的性能水平。

技術實現層面，研究團隊通過數學證明確保了算法的兩個關鍵特性：一是保持解決方案質量排序，即相同成功率下更優方案獲得更高評分；二是增強梯度信噪比，提供更穩定的學習信號。消融實驗表明，將解決方案劃分為4個質量層級能在區分度和穩定性間取得最佳平衡，層級過少會導致指導不足，過多則可能引入噪聲。

該算法展現出良好的跨任務遷移能力。在感知任務訓練的模型應用于規劃任務時，仍能保持性能提升，證明其培養的"追求質量"學習模式具有普適性。實際部署中，算法僅需對傳統策略梯度方法進行最小化修改，將二元獎勵替換為分層獎勵即可，這種輕量化設計使其易于集成到現有強化學習框架。

研究團隊同時指出算法的局限性：甜蜜點區域設計仍需部分領域知識，復雜約束任務中可能存在局部評估與全局目標的偏差。為防范獎勵黑客攻擊，算法保留了二元正確性校驗作為基礎約束，確保甜蜜點獎勵僅用于放大正確解決方案。計算開銷方面，該方法主要依賴幾何距離計算，無需額外神經網絡參數或大量標注數據。

目前，該技術已在自動化測試、智能客服、機器人控制等領域展現出應用潛力。例如幫助AI學習更自然的對話策略，或引導機器人完成更精準的動作序列。研究團隊正探索自適應甜蜜點調整、多目標優化等改進方向，期待通過更精細的反饋機制推動AI技術發展。完整技術細節可查閱論文arXiv:2601.22491v1。

更多>同類資訊

云天勵飛布局AI推理賽道未來三年大算力芯片戰略劍指成本與效能突破

02-04

云天勵飛布局AI推理賽道未來三年大算力芯片戰略劍指成本與效能突破

02-04

京東春節豪擲超13億升級員工福利，騎手暖心補貼讓年貨配送更安心

02-04

AI浪潮催生光纖新周期：供需共振下行業龍頭如何把握增長機遇？

02-04

馬斯克母親上海“認車”小插曲：深藍與特斯拉的美麗誤會見證國貨崛起

02-04

2026科技營銷新航向：抖音賦能品牌構建體系化增長引擎

近日，“2026抖音科技生態年度盛典”落地，以人群破圈、新品心智滲透、AI技術鏈路和生態閉環為核心，提出一套全新的體系化解決方案。由于新方案聚焦于品牌營銷的體系化重塑，這意味著品牌應增加對可持續內容供給能…

02-04

馬斯克整合SpaceX與xAI，多領域布局能否引領太空與AI新未來？

02-04

摩爾線程AI Coding Plan登場：國產GPU賦能，30天免費體驗開啟智能編程新篇

02-04

2025胡潤中國品牌榜揭曉：蘋果居首，茅臺微信等品牌價值表現亮眼

02-04

智元機器人2月8日將辦《機器人奇妙夜》，兩百余臺機器人主導，無緣今年春晚

紅星資本局2月3日消息，今日，智元機器人宣布，將于2月8日20:00直播全球首個大型機器人晚會《機器人奇妙夜》。此前有傳聞稱，智元與宇樹科技競爭春晚席位，紅星資本局今日了解到，智元將不參加2026年馬年春晚…

02-04

玖錦科技成都高新區開工新項目助力電子信息產業邁向源頭創新新高度

同時，該項目將構建“實驗室-中試線-量產線”一體化創新體系，支撐國家重大戰略需求，推動先進技術向通信、衛星互聯網、量子科技等前沿領域轉化，加速從原理驗證到規模生產的全流程迭代。作為扎根成都高新區發展的國家…

02-04

網易海洋冒險RPG《遺忘之海》2月5日開啟封測，PC端配置要求公布

02-04

拼多多AI硬件價格“跳水”：十元耳機百元眼鏡，普及之路前景幾何？

但在雷科技看來，能登上 CES 舞臺的 AI 硬件本身就是鳳毛麟角；想看 AI 硬件競爭到底有多激烈，那還得上拼多多。但在雷科技看來，這些低價產品本身也沒有想著在體驗上拉開差距。不過話又說回來，既然這些低…

02-04

聯想摩托羅拉Razr 70系列通過阿聯酋TDRA認證或上半年發布 Edge 70 Fusion配置曝光

IT之家 2 月 3 日消息，外媒 xpertpick 挖掘數據獲悉，聯想旗下摩托羅拉 Razr 70 和 Razr 70 Ultra兩款手機目前已經通過阿聯酋 TDRA 認證，暗示這兩款機型有望于今年上半…

02-04

小米今年IoT新品陣容曝光：NAS、耳夾式耳機等多款產品有望年內登場

IT之家 2 月 3 日消息，消息博主 @智慧皮卡丘昨日表示，小米今年將推出一系列 IoT 新品，包括Tag追蹤器、手表、NAS、手環、（新一代）AI 眼鏡、耳夾式耳機。 @智慧皮卡丘在回復中提到，小米…

02-04

點擊查看更多 +

全站最新

阿維塔與華為乾崑開啟2.0合作，阿維塔06T將首批搭載華為新一代激光雷達

東風固態電池下半年量產：續航超千公里還耐寒，但普及仍需跨過幾道坎

問界以智慧豪華雙驅動連續兩年量價齊升領跑高端新能源市場

小米YU7 Max在IVISTA測評中脫穎而出，獲四大分項“極優”成行業標桿

小米YU7 Max斬獲中國汽車健康指數最高評級環保設計守護用戶健康出行

新一代小米SU7流金粉實車亮相 22.99萬起售女性市場或迎新寵

熱門內容

本欄最新

2026科技營銷新航向：抖音賦能品牌構建體系化增長引擎

小米YU7 Max在IVISTA測評中脫穎而出，獲四大分項“極優”成行業標桿

小米YU7 Max斬獲中國汽車健康指數最高評級環保設計守護用戶健康出行

新一代小米SU7流金粉實車亮相 22.99萬起售女性市場或迎新寵

小米YU9高寒測試曝光！增程大SUV硬剛理想L9，車頂或藏玄機，30萬起售？

雷軍直播揭秘新一代SU7：2月13日左右展車進店，配置升級漲價也值

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

清華等團隊創新AI訓練法："甜蜜點學習"讓智能體學習效率顯著躍升