在語義表征領域,打破“英語中心主義”的壁壘正成為大模型進化的新戰場。
3月26日,螞蟻集團 CodeFuse 團隊 聯合 上海交通大學 正式發布了 F2LLM-v2系列 Embedding 模型。該系列模型不僅在權威評測中展現了統治級的表現,更以全開源的姿態,為全球開發者提供了一套兼顧高性能與極致效率的語義表征方案。
實力霸榜:MTEB 評測橫掃11項 SOTA
在衡量 Embedding 模型最權威的 MTEB 榜單中,F2LLM-v2 展現了全方位的領先優勢:
11項冠軍: 在德語、法語、日語以及代碼檢索等11個語種和領域榜單中位列第一。
跨級挑戰: 即便是家族中的輕量級成員,在同尺寸下也多次擊敗了業界知名大模型。
深度覆蓋: 評測任務涵蓋醫療問答、代碼檢索等430個細分場景,實現了無死角覆蓋。
全能理解:精通282種自然語言與40+ 種代碼
F2LLM-v2 的強悍源于其極其包容的訓練底座:
多語種強化: 特別加強了對中低資源語言(如北歐語系、東南亞語系等)的支持,真正實現了全球化覆蓋。
編程專家: 深入理解 Python、Java、Go 等40多種編程語言,是 RAG(檢索增強生成)和代碼助手開發者的理想選擇。
高質量樣本: 依托6000萬經過嚴苛清洗的公開資源樣本,確保了模型知識的純粹性與廣泛性。
極致高效:從80M 到14B 的全尺寸家族
為了適配從移動端到云端的全場景需求,CodeFuse 團隊 打造了完整的模型矩陣:
端側友好:80M-330M 的小模型采用“模型裁剪”與“知識蒸餾”技術,可在移動設備上流暢運行。
“套娃”黑科技: 支持動態維度調整,用戶可以在8維到全維度之間自由切換,在推理速度與存儲成本之間找到完美平衡。
純粹開源:透明度定義社區標準
不同于許多“黑盒”模型,F2LLM-v2 堅持走完全開源路線:
全量開放: 所有尺寸的模型權重均已開放下載。
細節透明: 公布完整技術報告,揭秘訓練全過程。
可復現性: 釋放全部代碼與檢查點,鼓勵全球研究者在此基礎上進行二次開發。
結語:打破壁壘,探索 AI 無限可能
作為 CodeFuse 開源系列 的又一力作,F2LLM-v2 的發布不僅提升了多語言 RAG 的準確率,更為全球開發者提供了一個公平、透明且高性能的技術底座。在 AI 席卷全球的今天,聽懂世界,從每一個精準的 Embedding 開始。










