阿里巴巴(中國)有限公司近期在專利領域邁出重要一步,企查查APP最新信息顯示,該公司已正式申請公布一項名為“一種基于思維鏈訓練大型語言模型的方法、裝置和設備”的專利技術。
據專利摘要介紹,這項創新技術通過構建多維度數據體系優化模型訓練流程。研究團隊首先采集包含圖像、輔助文本說明及標準審核結果的大規模初始數據集,隨后運用這些數據生成結構化的思維鏈數據集合。該數據集被用于對基礎語言模型進行全量參數微調,形成具備初步處理能力的中間模型。
在迭代優化階段,技術人員采用雙軌并進策略:一方面持續利用原始數據生成新的中間思維鏈數據,另一方面通過預設的獎勵函數對生成數據進行質量評估。特別值得關注的是,該專利創新性地引入組相對策略優化算法(GRPO),通過強化學習機制對中間模型進行深度優化,最終形成具備高解釋性和精準審核能力的目標語言模型。
這項技術的突破性在于構建了數據生成-模型微調-強化學習的完整閉環。通過思維鏈數據的有序傳遞,既保證了模型訓練過程的可追溯性,又顯著提升了復雜場景下的審核準確率。專利文件特別強調,該技術方案特別適用于需要高精度內容審核的商業場景,能夠有效降低人工復核成本,提升系統整體運行效率。






