AMD近日宣布,其開源軟件堆棧ROCm正式推出7.2.0版本,為AI計算領域帶來多項關鍵升級。此次更新不僅擴展了硬件兼容性,還通過底層優化顯著提升了主流大模型的推理效率,進一步鞏固了AMD在異構計算市場的技術優勢。
硬件支持方面,ROCm 7.2.0新增對三款消費級顯卡和銳龍AI處理器的官方認證。其中Radeon AI PRO R9600D專業卡、Radeon RX 9060 XT LP低功耗卡及Radeon RX 7700游戲卡均通過完整兼容性測試,而最新發布的銳龍AI 400系列處理器則成為首個支持ROCm的消費級CPU平臺,標志著AMD加速計算生態向移動端延伸。
針對數據中心場景,新版本在Instinct系列加速器上實現突破性優化。通過內核級代碼重構和內存帶寬優化,MI355X運行meta Llama 3.1 405B模型時,推理吞吐量提升達40%,同時將端到端延遲壓縮至原水平的65%。對于70B參數規模的Llama 3/2模型,MI355X與MI350X的聯合優化使訓練效率提升28%,特別在注意力機制計算環節展現出顯著優勢。
在國產AI生態適配方面,ROCm 7.2.0針對智譜GLM-4.6模型優化了GEMM算子實現,使矩陣運算效率提升35%;同時深度整合DeepSeek開源通信庫,在MI300X集群上實現跨節點通信延遲降低22%。這些改進有效提升了國產大模型在AMD平臺上的訓練穩定性與擴展性。
系統級改進同樣值得關注。新版本HIP運行時通過動態指令調度技術,使多線程任務執行效率提升18%;新增的多GPU節點電源管理功能,可根據負載自動調節加速器功耗,在保持性能的同時降低數據中心整體能耗。這些底層優化使ROCm在科學計算、金融建模等傳統優勢領域保持競爭力。
隨著AI模型參數規模持續突破萬億級,硬件與軟件的協同優化已成為決定計算效率的關鍵因素。AMD此次通過ROCm 7.2.0的全面升級,不僅強化了自身生態的技術壁壘,更為開發者提供了覆蓋消費級到企業級的完整加速計算解決方案。






