3 月 17 日消息,據智能紀元 AGI 昨日(3 月 16 日)報道,前 DeepSeek 研究員、小米 MiMo 大模型負責人羅福莉發表論文,與北京大學聯合研發出統一的資源管理系統 ARL-Tangram。
ARL-Tangram 采用統一的動作級公式和彈性調度算法,不僅滿足異構資源約束,而且最大限度地縮短動作完成時間(ACT),以及實現定制化異構資源管理器。
在真實世界的智能體強化學習任務上的評估表明,ARL-Tangram 可以將平均 ACT 提高高達 4.3 分。可將強化學習訓練的步驟持續時間縮短至多 1.5 倍,并節省高達 71.2% 的外部資源。
這是羅福莉在小米發表的第二份突破性技術成果論文。去年 10 月,小米 AI 團隊攜手北京大學聯合發布一篇聚焦 MoE 與強化學習的論文,其中已經出現羅福莉的名字,成為羅福莉在小米發表的首篇論文成果。
在 2025 小米人車家全生態合作伙伴大會上,羅福莉迎來入職后首秀。她在朋友圈官宣加入小米 Xiaomi MiMo 大模型團隊:
智能終將從語言邁向物理世界。我正在 Xiaomi MiMo,和一群富有創造力、才華橫溢且真誠熱愛的研究員,致力于構建這樣的未來,全力奔赴我們心目中的 AGI!











