摩爾線程近日宣布開源TileLang-MUSA項目,為國產GPU開發領域注入新活力。該項目通過完整支持TileLang編程語言,致力于充分挖掘全功能GPU的性能潛力,同時顯著降低國產GPU的開發門檻,為行業帶來新的發展契機。
TileLang作為一種高性能AI算子編程語言,基于張量分塊抽象構建,屬于領域特定語言(DSL)。它采用聲明式語法與類Python前端,讓開發者能夠以類似數學公式的方式表達計算意圖。編譯器會自動完成循環優化、內存調度和代碼生成等復雜任務,在確保底層性能的前提下,極大降低了GPU及異構計算平臺的編程復雜度。
在實際應用中,TileLang展現出諸多優勢。其高級抽象特性降低了開發門檻,且具備跨平臺能力,實現“一次編寫、多架構運行”。編譯器可自動執行Layout推導、線程映射、Warp特化、流水線排布和內存優化等操作,在保障性能的同時提升開發效率,廣泛應用于AI與機器學習、科學計算等領域。TileLang-MUSA項目則提供了介于底層匯編與高層DSL之間的“中間層”抽象,在保留硬件控制力的同時,大幅降低編程復雜度。
該項目在硬件兼容性方面表現出色,已在摩爾線程多代全功能GPU上完成功能驗證與打通,包括訓推一體全功能智算卡MTT S5000和MTT S4000。團隊成功實現了TileLang高層語義到摩爾線程GPU底層MUSA架構的精準映射,具體體現在多個方面:編譯器能自動調用MUSA的MMA指令,充分發揮硬件張量核心的峰值計算能力;自動處理從全局內存到共享內存再到寄存器的多級數據搬運,利用MUSA異步拷貝指令掩蓋訪存延遲;完整支持Warp Specialization特性。目前,基于MUSA架構的TileLang原生算子單元測試覆蓋率已超過80%,為大規模應用提供了可靠保障。開發者在完成環境配置后,可保留原有的import tilelang習慣,通過Cython編譯后端直接在MUSA環境中運行TileLang代碼。
在實際算子開發實踐中,TileLang-MUSA項目成果顯著,實現了開發效率與運行性能的雙重提升。以大語言模型中重要的FlashAttention-3和GEMM算子為例,在摩爾線程MTT S5000上的測試結果顯示,開發效率大幅提升,代碼量相較手寫MUSA C++代碼減少了約90%,且代碼邏輯更清晰,降低了開發與維護成本。性能方面,得益于編譯器優化,生成的算子性能在典型配置下,Gemm最高可達手寫優化版本的95%,FlashAttention-3可達手寫優化版本的85%。借助TileLang-MUSA的Auto-tuning機制,開發者可在MUSA架構的全功能GPU上快速搜索最優的分塊策略和流水線級數,輕松超越未經深度優化的基準實現。
TileLang-MUSA項目的推出,具有多方面重要意義。它使TileLang用戶能夠近乎零成本地將算子邏輯遷移至摩爾線程GPU,為不熟悉MUSA指令集的AI工程師提供了高層次的開發入口。同時,通過支持FlashAttention等關鍵算子的高效開發,加速了大語言模型等前沿AI應用在國產算力平臺上的部署與落地。
摩爾線程計劃持續推進平臺與生態建設,將TileLang-MUSA開源視為構建國產算力生態的關鍵一步。后續計劃包括深度集成SGLang等主流AI框架,實現Transformer、MoE等復雜模型架構的跨算子調度與全局優化;完善調試和性能分析工具鏈;通過性能優化,開發更多MUSA架構定制擴展,使生成代碼性能穩定達到手寫優化版本的90%以上,為構建開放、易用的國產算力開發生態提供有力工具支撐。










