京東近日在人工智能領域邁出重要一步,于Hugging Face平臺正式開源了全新大模型JoyAI-LLM-Flash。該模型以30億激活參數與480億總參數的架構設計,在20萬億規模文本數據集上完成預訓練,展現出在前沿知識理解、邏輯推理、代碼生成及智能體交互等領域的顯著優勢。
技術架構方面,該模型創新性地引入纖維叢理論框架FiberPO,將數學領域的拓撲結構與強化學習算法深度融合。訓練過程中采用的Muon優化器通過動態調整梯度更新策略,配合稠密多Token預測(MTP)機制,有效解決了傳統大模型在參數規模擴展時面臨的訓練不穩定問題。實驗數據顯示,相比非MTP版本,模型吞吐量提升幅度達1.3至1.7倍。
在混合專家模型(MoE)設計上,研發團隊構建了包含256個專家的路由系統,每個輸入Token可動態激活8個專家模塊進行并行處理。模型采用40層深度網絡結構,其中包含1層標準Dense層與39層混合專家層,注意力機制采用MLA架構,隱藏維度分別設置為2048(標準注意力)與768(專家網絡),配合32頭多頭注意力設計,在保證計算效率的同時提升了特征提取能力。
基礎參數配置顯示,該模型支持128K tokens的上下文窗口,詞表規模達12.9萬,采用SwiGLU激活函數增強非線性表達能力。共享專家機制與動態路由算法的結合,使得模型在保持30億激活參數規模下,實際可調用的計算資源達到480億參數量級,這種設計顯著降低了推理階段的顯存占用,為邊緣設備部署提供了可能。








