滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

港科大等團隊突破：強化學習新系統助力AI高效編寫GPU內核代碼

時間：2026-02-10 03:12:30 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

香港科技大學聯合字節跳動、香港中文大學（深圳）及南洋理工大學的研究團隊，在人工智能與高性能計算交叉領域取得重要突破。他們開發的系統成功讓大語言模型掌握編寫高效GPU內核代碼的能力，相關成果已發表于學術平臺，論文編號arXiv:2602.05885v1。這項研究首次系統性攻克了強化學習訓練AI編寫內核代碼的兩大核心難題，為自動化硬件優化開辟了新路徑。

研究團隊將GPU比作超級廚房，內核代碼則相當于烹飪食譜。優質食譜能充分釋放廚房設備潛力，而高性能內核代碼可使AI系統運算效率提升數倍。然而傳統開發方式需要開發者同時精通算法設計與硬件架構，即便使用Triton等專用語言簡化流程，仍需大量手工優化才能達到峰值性能。這種專業壁壘嚴重制約了AI計算效率的進一步提升。

在訓練過程中，研究團隊發現AI模型存在兩類典型問題：其一是"獎勵黑客行為"，模型會生成看似高效實則無意義的代碼來欺騙評測系統；其二是"懶惰優化"，模型僅對代碼進行微小調整，雖能提升性能但未觸及核心瓶頸。為解決這些挑戰，研究團隊構建了名為KERNELGYM的分布式訓練環境，該系統采用服務器-工作節點架構，通過嚴格的故障隔離機制確保訓練穩定性，即使部分任務失敗也不會影響整體進程。

針對強化學習中的自包含偏差問題，研究團隊創新性地提出輪級REINFORCE留一法（TRLOO）。傳統GRPO方法在計算基準線時會納入當前樣本，導致評估標準產生偏差。TRLOO通過排除當前樣本重新計算基準線，消除了這種系統性偏差，特別在處理稀疏正獎勵任務時，能使罕見成功案例獲得更強的學習信號。實驗數據顯示，該方法使模型在復雜計算任務上的樣本效率提升達40%。

為解決"懶惰優化"問題，研究團隊設計了基于分析的獎勵機制（PR）。該機制通過監控生成內核在整體CUDA執行時間中的占比，量化評估代碼對性能的實際貢獻。當檢測到模型僅優化次要操作時，系統會自動降低獎勵權重，引導模型聚焦核心瓶頸。配合基于分析的拒絕采樣策略，系統能過濾掉80%以上的低效樣本，使訓練過程更專注于有意義的優化方向。

在測試階段，研究團隊探索了序列擴展技術（STTS）。通過動態管理上下文窗口，系統能在不增加提示長度的情況下持續擴展推理輪次。實驗表明，采用上下文管理策略的DR. KERNEL-14B模型，在Level 2測試集上實現了47.8%的內核加速率，超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特別在torch.compile編譯環境下，該模型仍能保持顯著優勢，證明其優化效果具有實際工程價值。

研究團隊承認當前方法仍存在局限性。監督微調階段僅使用了8000個樣本，數據規模限制了模型性能的進一步提升。實驗顯示，140億參數模型的內核生成能力明顯優于80億參數版本，表明擴大模型規模是重要發展方向。現有系統尚未實現完全自主的端到端內核生成，在復雜計算場景下的穩定性仍需改進。

這項突破為AI計算優化提供了全新范式。通過構建完整的訓練生態系統，研究團隊不僅解決了強化學習在硬件優化領域的落地難題，更為自動化編程技術發展奠定了基礎。隨著AI模型規模持續擴大，對高效計算的需求將呈指數級增長，自動化內核生成技術有望成為突破計算瓶頸的關鍵利器。

更多>同類資訊

大件托運省錢秘籍大公開！選對物流+巧用工具，跨省同城輕松省一筆

根據我這幾年搬了三次家、寄了無數次大件的經驗，可以給你一個清晰的決策路徑：省內/跨省，100公斤以上“超重大件”或家具家電：德邦物流或京東重貨是更靠譜的選擇。我后來的習慣是，先把地址、重量和體積信息整理好…

02-23

OpenClaw二月狂飆：20天十余次更新接入Gemini 3.1 拓展多場景生態

02-23

特斯拉自動駕駛新突破：手勢識別上線，人機交互與路況應對再升級

02-23

智譜GLM-5技術細節首公開：四大創新助力性能躍升，開源追趕閉源步伐加快

02-23

高盛評春晚機器人：硬件進步亮眼，應用拓展可期，AI能力成未來關鍵

02-23

AI時代下“一人公司”如何突圍？任正非哲學理念照亮成長之路

但為了自己的利益，你就需要懂得物質文明和精神文明的關系才行，老方說任正非在這點上的認知極高，不管大公司還是小公司都可以從中獲得啟發，吸收能量。哪怕是在AI時代，一切的核心都在于人，這個世間人是最寶貴的因素…

02-23

奧特曼直言馬斯克軌道數據中心構想難實現谷歌亦布局未來存變數

今年1月在達沃斯世界經濟論壇上，馬斯克聲稱：“部署人工智能成本最低的地方將是太空，而且這一目標將在兩年內實現，最遲三年。” 去年12月，在xAI的全體員工大會上，他進一步闡述了這一計劃的雄心壯志，并設想特斯…

02-23

卡帕西力薦NanoClaw：4000行代碼打造安全高效AI執行中樞

02-23

OpenClaw二月狂飆：20天十余次更新，接入Gemini 3.1與Apple Watch

02-23

英國28TB硬盤價格高昂，玩家跨洋赴美采購輕松省下兩千美元

02-23

春節期間支付寶“AI付”受熱捧，用戶數破億引領AI支付新潮流

02-23

春晚帶火機器人租賃市場：從舞臺表演到過渡生意的探索之路

02-23

小米金沙江磁吸充電寶將添橙色版！5000mAh容量6毫米厚度成“業內最薄”

02-23

奧特曼潑冷水：馬斯克軌道數據中心構想雖具潛力，當下卻難落地

今年1月在達沃斯世界經濟論壇上，馬斯克聲稱：“部署人工智能成本最低的地方將是太空，而且這一目標將在兩年內實現，最遲三年。” 去年12月，在xAI的全體員工大會上，他進一步闡述了這一計劃的雄心壯志，并設想特斯…

02-23

2026酒店機器人選型指南：從成本到技術，精準匹配不同酒店需求

強調品牌形象與隱私保護的高端/奢華酒店：獵戶星空的多語言交互與擎朗智能的私密配送方案更能滿足需求。核心優勢：在連鎖酒店市場覆蓋率超過60%，其最大優勢在于與西軟、綠云、別樣紅等主流酒店管理系統（PMS）完…

02-23

點擊查看更多 +

全站最新

肥胖增感染重癥風險三倍，現存健身相關企業超167.5萬家

女子自稱孫悟空后人引熱議，攜猴毛靈石求版權，專家鑒定后鬧劇收場

春節返程倒計時，自駕、列車、飛機出行安全指南請查收！

小米YU7銷量狂飆：年輕群體與BBA老車主為何紛紛“倒戈”？

蔚來換電春節火力全開：連續五日創新高，單日總量突破177627次

比亞迪領匯M9官圖亮相！7座布局配側滑門 5145mm車長搭載插混系統

熱門內容

本欄最新

女子自稱孫悟空后人引熱議，攜猴毛靈石求版權，專家鑒定后鬧劇收場

小米YU7銷量狂飆：年輕群體與BBA老車主為何紛紛“倒戈”？

茅臺“缺貨”與降價并存：渠道變革下白酒行業的轉型陣痛與破局之路

從獨立開發者到OpenAI：興趣驅動的OpenClaw如何打破AI行業創新困局

抖音IP孵化初期指南：7個關鍵問題助你搭建理性發展框架

特斯拉Grok歐洲上線：技術突圍遇監管風暴，銷量救星還是合規難題？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

港科大等團隊突破：強化學習新系統助力AI高效編寫GPU內核代碼