岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

港科大等團隊突破:強化學習新系統助力AI高效編寫GPU內核代碼

   時間:2026-02-10 03:12:30 來源:互聯網編輯:快訊 IP:北京 發表評論無障礙通道
 

香港科技大學聯合字節跳動、香港中文大學(深圳)及南洋理工大學的研究團隊,在人工智能與高性能計算交叉領域取得重要突破。他們開發的系統成功讓大語言模型掌握編寫高效GPU內核代碼的能力,相關成果已發表于學術平臺,論文編號arXiv:2602.05885v1。這項研究首次系統性攻克了強化學習訓練AI編寫內核代碼的兩大核心難題,為自動化硬件優化開辟了新路徑。

研究團隊將GPU比作超級廚房,內核代碼則相當于烹飪食譜。優質食譜能充分釋放廚房設備潛力,而高性能內核代碼可使AI系統運算效率提升數倍。然而傳統開發方式需要開發者同時精通算法設計與硬件架構,即便使用Triton等專用語言簡化流程,仍需大量手工優化才能達到峰值性能。這種專業壁壘嚴重制約了AI計算效率的進一步提升。

在訓練過程中,研究團隊發現AI模型存在兩類典型問題:其一是"獎勵黑客行為",模型會生成看似高效實則無意義的代碼來欺騙評測系統;其二是"懶惰優化",模型僅對代碼進行微小調整,雖能提升性能但未觸及核心瓶頸。為解決這些挑戰,研究團隊構建了名為KERNELGYM的分布式訓練環境,該系統采用服務器-工作節點架構,通過嚴格的故障隔離機制確保訓練穩定性,即使部分任務失敗也不會影響整體進程。

針對強化學習中的自包含偏差問題,研究團隊創新性地提出輪級REINFORCE留一法(TRLOO)。傳統GRPO方法在計算基準線時會納入當前樣本,導致評估標準產生偏差。TRLOO通過排除當前樣本重新計算基準線,消除了這種系統性偏差,特別在處理稀疏正獎勵任務時,能使罕見成功案例獲得更強的學習信號。實驗數據顯示,該方法使模型在復雜計算任務上的樣本效率提升達40%。

為解決"懶惰優化"問題,研究團隊設計了基于分析的獎勵機制(PR)。該機制通過監控生成內核在整體CUDA執行時間中的占比,量化評估代碼對性能的實際貢獻。當檢測到模型僅優化次要操作時,系統會自動降低獎勵權重,引導模型聚焦核心瓶頸。配合基于分析的拒絕采樣策略,系統能過濾掉80%以上的低效樣本,使訓練過程更專注于有意義的優化方向。

在測試階段,研究團隊探索了序列擴展技術(STTS)。通過動態管理上下文窗口,系統能在不增加提示長度的情況下持續擴展推理輪次。實驗表明,采用上下文管理策略的DR. KERNEL-14B模型,在Level 2測試集上實現了47.8%的內核加速率,超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特別在torch.compile編譯環境下,該模型仍能保持顯著優勢,證明其優化效果具有實際工程價值。

研究團隊承認當前方法仍存在局限性。監督微調階段僅使用了8000個樣本,數據規模限制了模型性能的進一步提升。實驗顯示,140億參數模型的內核生成能力明顯優于80億參數版本,表明擴大模型規模是重要發展方向。現有系統尚未實現完全自主的端到端內核生成,在復雜計算場景下的穩定性仍需改進。

這項突破為AI計算優化提供了全新范式。通過構建完整的訓練生態系統,研究團隊不僅解決了強化學習在硬件優化領域的落地難題,更為自動化編程技術發展奠定了基礎。隨著AI模型規模持續擴大,對高效計算的需求將呈指數級增長,自動化內核生成技術有望成為突破計算瓶頸的關鍵利器。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产成人亚洲精品 | 91视频91 | 91久久久久久 | 欧美午夜免费 | 亚洲激情文学 | 毛茸茸av| 欧美日韩综合在线观看 | 久久色网站 | 国产精品一区二区免费视频 | 国产日韩免费 | 懂色av一区二区三区蜜臀 | 在线免费黄色 | 夜夜爽网站 | 91成人精品一区在线播放 | 免费毛片视频 | 午夜免费福利在线观看 | 69av在线视频 | 亚洲播播 | 99精品免费观看 | 黄页网站在线看 | 亚洲欧美另类色图 | 亚洲 欧美 日韩 综合 | 日韩av在线播放网址 | 国产九九| 天天摸天天干 | 一区二区三区四区五区在线 | 香蕉视频在线观看网站 | 日韩欧美一区二区三区四区 | 日韩久久精品 | 久久xxxx| 91视频免费网站 | 四虎4hu永久免费网站影院 | 久久久久久久99 | 亚洲色图在线播放 | 日韩精品在线观看视频 | 亚洲最新 | 日韩中文字幕国产 | 久久成人综合 | 国产 日韩 欧美 成人 | 在线观看成人免费 | 自拍99|