在人工智能技術飛速發展的當下,數據中心網絡性能指標中,延遲的重要性愈發凸顯。對于AI訓練任務而言,低延遲是保障訓練集群內所有圖形處理單元(GPU)和節點高效運轉的關鍵。它能夠最大程度減少設備空閑時間,進而提升整體訓練效率。而在需要實時或近乎實時響應的AI推理場景中,低延遲更是不可或缺的核心要素。
隨著GPU集群規模不斷擴大,從數百個延伸至數百萬個,功耗、空間以及可用性等方面的限制,迫使AI集群分散布局于多個城域和區域數據中心。“跨規模”這一概念應運而生,專門用于描述數據中心之間的AI網絡連接。然而,數據中心的位置選擇以及它們之間的間距,都受到延遲因素的嚴格制約。
數據中心網絡延遲的構成中,光在光纖電纜中傳輸所耗費的時間占據關鍵地位。當網絡距離跨越城域、區域,甚至延伸至長途和海底時,這一因素逐漸成為影響延遲的主導力量,相比之下,網絡設備自身產生的延遲則顯得微不足道。因此,光纖延遲的大小主要取決于傳輸距離以及每公里光纖的延遲特性。那些提供數據中心互連服務(如波長服務、暗光纖和托管光纖網絡)的網絡運營商,往往通過優化光纖路由,確保擁有最短的光纖路徑,以此在激烈的市場競爭中脫穎而出。
每公里光纖延遲與光纖的折射率緊密相關。自20世紀60年代問世以來,傳統光纖至今已在全球部署超過70億公里。盡管在降低損耗和提升性能方面不斷取得進步,但這些光纖均采用二氧化硅作為纖芯材料。二氧化硅纖芯光纖(SCF)的折射率約為1.5,這意味著光在其內部的傳播速度比在真空中慢約30%。
空芯光纖(HCF)的出現,為光纖技術帶來了全新的發展方向。與傳統的二氧化硅纖芯光纖不同,空芯光纖的纖芯呈中空狀態,內部填充空氣或特定氣體,其折射率約為1。這一特性使得光在空芯光纖中的傳輸速度比在傳統光纖中快50%,延遲降低約30%。對于AI領域的跨規模應用而言,這一優勢意義重大,它能夠將數據中心之間的最大連接距離增加50%,同時使數據中心的占地面積擴大125%。這為網絡運營商提供了更為廣闊的選址空間,使他們能夠將數據中心設置在房地產成本較低,且具備充足電力和冷卻水資源供應的區域。
在人工智能時代,功耗問題同樣備受關注。空芯光纖不僅能夠助力數據中心靠近低成本電源布局,還能在降低光網絡功耗方面發揮顯著作用。其降低功耗的主要途徑之一是通過減少光損耗。目前,傳統二氧化硅纖芯光纖的光損耗穩定在約0.14 dB/km,而最先進的空芯光纖最小光損耗已降至約0.05 dB/km,研究人員仍在不斷探索,力求實現更低的光損耗。更低的光損耗意味著對高耗電光放大器的需求大幅減少。在短距離的數據中心互連應用中,甚至可能無需使用光放大器;中等距離的互連場景中,數據中心之間的光放大需求也可能大幅降低;即使是長距離的互連,所需的在線放大器站點數量也會減少,且站點之間的間隔增大。空芯光纖還具有低色散和非線性損傷的優點,從長遠來看,這有望促使相干光引擎的設計更加簡化,進而降低功耗。低光損耗特性還可能延伸至數據中心內部,降低相關應用的光功耗。
除了低延遲和降低功耗的優勢外,空芯光纖還具備提升光纖容量的潛力,這得益于其更寬的頻譜以及改善后的波長頻譜效率。然而,在空芯光纖能夠在商業環境中實現大規模部署之前,仍面臨諸多亟待解決的挑戰。這些挑戰涵蓋成本、可制造性、供應商的多樣性,以及與測試、熔接、連接器安裝、維修和與傳統二氧化硅纖芯光纖耦合等操作環節相關的問題。
盡管面臨重重挑戰,但近期光學行業會議上傳來的消息顯示,在空芯光纖領域已取得顯著進展。多家主要云服務提供商與空芯光纖供應商紛紛宣布開展部署工作,并建立合作伙伴關系以擴大生產規模。目前,這些初期部署主要聚焦于AI數據中心之間的城域跨規模應用。隨著空芯光纖成本的逐步下降和生產規模的不斷擴大,低延遲和低損耗的特性有望推動其在數據中心內部的應用,而海底部署則成為空芯光纖生態系統的長期發展目標。













