滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

字節跳動推出veScale-FSDP系統：為AI大模型訓練注入靈活高效新動能

時間：2026-02-28 03:03:43 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能模型訓練領域，超大規模語言模型的訓練如同搭建精密復雜的科技大廈，需要成千上萬個GPU協同工作。其中，“全分片數據并行”技術（FSDP）是關鍵支撐，但傳統FSDP系統存在明顯局限，如同固定尺寸的積木難以應對復雜搭建需求。字節跳動研究團隊針對這一問題，開發出veScale - FSDP系統，為AI訓練帶來新突破。

傳統FSDP系統問題諸多。當研究人員嘗試運用矩陣優化器Muon或8位量化訓練等先進技術時，傳統系統因只能按固定方式切分數據，無法滿足新技術對數據塊狀結構的特定處理要求，就像刀具只能橫切或豎切，難以完成復雜切割。而且，在性能方面，當訓練規模擴展到上萬個GPU時，系統通信效率和內存使用問題凸顯，內存管理缺乏統一規劃導致大量內存碎片，通信中的數據拷貝操作也造成顯著性能損失。

veScale - FSDP系統的核心創新在于引入“RaggedShard”新型數據分片格式。與傳統固定模具式的數據分片不同，RaggedShard如同可隨意調整形狀的橡皮泥模具，能根據具體需求靈活調整分片大小和形狀。以拼圖游戲類比，傳統系統要求拼圖塊都是標準長方形，而RaggedShard允許拼圖塊有各種形狀。處理Muon優化器時，它能確保每個設備上的數據塊包含完整矩陣，避免矩陣被切斷；對于8位量化訓練，它能保證每個設備上的數據按量化塊邊界切分，使每個設備可獨立完成量化操作，還能與張量并行、專家并行等現有并行化策略完美融合。

僅有靈活的數據分片還不夠，高效通信是關鍵。veScale - FSDP開發了智能規劃算法，解決不規則形狀數據塊的高效打包和傳輸問題，類似快遞打包中如何將形狀各異的物品裝入標準快遞箱，既要保證物品完好、空間利用率高，又要確保每個快遞箱重量平衡。研究團隊將此問題數學化為優化問題，在滿足“非分片塊約束”“連續內存約束”“嚴格負載平衡約束”三個關鍵條件下，最小化通信緩沖區大小。基于Transformer模型的結構特性，他們設計了多項式時間的動態規劃算法，通過案例分析數據塊與分片邊界的三種可能關系，找到最佳數據布局方案。

為進一步提升性能，veScale - FSDP引入“分布式緩沖區”（DBuffer）新原語。傳統FSDP系統通信時需大量數據拷貝操作，如同搬家時物品需多次搬運，效率低下。DBuffer實現零拷貝通信，像在房間和卡車間建立直通管道，物品可直接傳輸。它具有全局緩沖區語義、支持組級別操作、提供持久地址映射、支持原地通信和計算等關鍵特性，在實際測試中，使通信開銷降低約7%，規劃算法優化帶來34%的性能提升，且這些優化自動進行，開發者無需修改模型代碼。

veScale - FSDP在各種規模實驗中表現卓越。在端到端訓練性能對比中，該系統在MoE稀疏模型上比所有基線系統快11%到66%，在LLaMA - 3 - 70B密集模型上有5%的性能提升，這些提升源于優化的通信重疊、基于DBuffer的零拷貝集合通信以及避免填充開銷的靈活分片粒度。內存使用方面，它將峰值預留內存降低16%到30%，得益于確定性的批量內存管理策略。擴展性測試顯示，它能高效擴展到一萬個GPU規模，在弱擴展性測試中保持接近線性擴展性，在強擴展性測試中也有良好表現。

為驗證系統靈活性，研究團隊測試了veScale - FSDP對8位Adam優化器和分布式Muon優化器的支持能力。8位Adam優化器需支持32×32的塊級量化粒度，veScale - FSDP中開發者只需設置參數量化粒度，系統就能自動確保數據分片與量化塊邊界完美對齊，每個設備可獨立量化操作。Muon優化器需在原始2D參數矩陣形狀上進行Newton - Schulz迭代，veScale - FSDP通過RaggedShard的不均勻分片能力，讓用戶用標準SPMD方式編寫分布式Muon算法。實驗結果顯示，該系統能高效支持這兩種前沿優化技術，且性能表現良好。

veScale - FSDP的工程實現巧妙擴展了PyTorch的DTensor抽象，RaggedShard作為DTensor的新放置策略，無縫集成現有并行化基礎設施。系統包含7600行Python代碼，完全兼容標準PyTorch分布式運行時和廣泛版本范圍，作為FSDP2的即插即用后端，使用相同API，現有訓練代碼幾乎無需修改就能享受性能提升。規劃算法實際運行開銷極小，時間復雜度為O(|T|?m log(E) log(|T|m))。

研究團隊通過消融實驗量化各組件貢獻，結果顯示DBuffer和規劃算法貢獻大部分性能提升，RaggedShard是支持塊級8位Adam的關鍵抽象。veScale - FSDP已在字節跳動生產環境得到實戰驗證，成功支持超一萬個GPU、2.4萬億參數規模的大規模訓練任務。在實際部署中，研究團隊總結出小規模實驗可準確預測大規模性能、在成熟抽象基礎上設計系統抽象、將模型定義與系統優化解耦等重要經驗。

veScale - FSDP已開源，為整個AI社區提供了強大工具。無論是學術研究機構還是產業界，都能利用它訓練更大、更復雜的AI模型，滿足AI模型規模不斷增長的需求。

更多>同類資訊

盧森堡大學創新成果：AI獲人類般持續學習力告別“災難性遺忘”

02-28

德物信息集團聯合高校突破：超長用戶行為序列推薦難題獲新解

02-28

雷軍直播揭秘新一代SU7：安全升級，新增機械門把手與備用電源

02-28

谷歌Pixel 11 Pro XL現身Geekbench：Tensor G6加持，降頻跑分仍顯強勁潛力

02-28

雷軍揭秘小米汽車安全體系：SU7升級門把手，將組建安全顧問團把關

02-28

致敬未知獲超億元Pre A輪融資，多方資本加碼AI運動眼鏡賽道

02-28

OpenAI獲1100億美元融資估值達7300億亞馬遜500億分階段入股深化AI合作

02-28

雷軍直播聚焦事故調查：流程嚴謹需時日，企業應守規待權威結果

02-28

周鴻祎談AI：別因“洗車難題”否定它，掌握對話技巧讓AI更聰明

02-28

月之暗面“變陣”：借OpenClaw東風，商業化能否破局求存？

02-28

巴塞羅那街頭驚現小米超跑身影，MWC 2026發布會“One more thing”引期待

02-28

雷軍直播揭秘小米汽車安全體系，將設安全顧問委與公眾透明溝通

02-28

豆包手機助手嚴正聲明：未收到漏洞報告，網傳內容系黑公關惡意炒作

02-28

摩爾線程2025年營收大增243.37%，S5000量產且適配多款SOTA大模型

02-28

懂車帝或赴港IPO籌資超10億美元字節跳動旗下業務再引上市猜想

02-28

點擊查看更多 +

全站最新

廣汽2025年成績斐然：與華為合作、自主品牌發力，邁向高質量發展新征程

亞馬遜500億美元攜手OpenAI，共筑AI新生態與定制化模型未來

極狐新阿爾法S5：陳妍希同款時尚座駕，L3智駕或引領出行新潮流

陳妍希米蘭閃耀，極狐新阿爾法S5登場，時尚科技共譜生活新篇

尊界S800新激光雷達亮相，以科技革新定義“科技豪華”新范式

極氪8X攜G-ASD來襲：以新能源之姿，改寫豪華高性能SUV市場格局

熱門內容

本欄最新

亞馬遜500億美元攜手OpenAI，共筑AI新生態與定制化模型未來

AI運動科技新勢力！致敬未知獲億元Pre-A輪融資，多機構助力拓展全球市場

光本位科技攜手百度智能云：AI賦能光計算芯片研發共筑國產算力新生態

寄大件物流怎么選？不同重量跨省搬家家電運輸省錢攻略大公開

2026年1月車市銷量揭曉：轎車星愿登頂，SUV小米YU7領跑，MPV賽那超魏牌高山

雷軍發布小米汽車2026春節出行報告：智駕里程破億用戶出行熱情高漲

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

字節跳動推出veScale-FSDP系統：為AI大模型訓練注入靈活高效新動能