美國AI評測平臺LMArena近日宣布完成1.5億美元A輪融資,投后估值達17億美元(約合120億元人民幣)。本輪融資由Felicis Ventures與加州大學伯克利分校旗下UC Investments共同領投,A16Z、光速創投、The House Fund等知名風投機構跟投。這家成立僅兩年的公司憑借獨特的評測模式,在AI大模型競爭白熱化的背景下,意外成為行業基礎設施級平臺。
LMArena的前身是學術組織LMSYS Org發起的Chatbot Arena項目。2023年,該組織由伯克利、卡內基梅隆等高校的研究者創立,旨在通過開源模型推動AI平民化。當團隊發現傳統評測方式無法有效區分模型性能時,創新性推出"匿名對戰"機制:用戶輸入提示詞后,系統隨機選取兩個模型生成回答,由用戶匿名投票決定優劣。這種模擬真實使用場景的評測方式,迅速獲得行業認可。
傳統評測體系正面臨嚴峻挑戰。以MMLU、GSM8K為代表的基準測試,因模型"刷題"能力提升導致區分度下降,部分測試集甚至被模型針對性訓練污染。更關鍵的是,這些標準化測試與實際應用場景存在脫節,導致"高分低能"現象普遍。LMArena通過收集超百萬次真實用戶偏好數據,構建起動態更新的排行榜,目前已有400余個大模型參與評測,月獨立用戶達數百萬。
商業化轉型過程中,LMArena展現出驚人的估值躍升。2025年5月種子輪融資時估值僅6億美元,七個月后A輪估值暴漲至17億美元。這種增長速度與其精簡的團隊形成鮮明對比——截至2026年初,公司僅有29名員工,人均估值超4億元。投資機構看重的不僅是現有業務,更是其作為AI產業"裁判員"的潛在價值。
2025年9月推出的AI evaluations服務,標志著公司正式開啟商業化進程。該產品為企業提供定制化模型評估,上線四個月即實現3000萬美元年度經常性收入。更值得關注的是Inclusion Arena產品,通過API/SDK將評測嵌入真實AI應用,半年內收集50萬次生產環境數據,構建起"AI持續集成/部署管道"。這種數據閉環不僅強化了排行榜權威性,更為監管合規提供可能路徑。
公信力危機始終如影隨形。2025年4月,多家研究機構指控LMArena協助meta操縱排名,稱其通過增加大廠模型對戰次數制造不公平優勢。盡管公司否認指控并開源部分代碼,但商業化進程中的利益沖突難以完全避免。領投方A16Z在投資邏輯中坦言,維持中立性將是最大挑戰,但認為透明評測將成為AI監管剛需,未來可能衍生出類似"綠色認證"的行業標準。
當前,全球主要AI企業均將LMArena排名作為重要宣傳指標。OpenAI、谷歌等公司新模型發布時,必在LMArena進行"打榜"。這種行業依賴性既帶來商業機會,也埋下風險——當評測平臺成為產業鏈關鍵節點,如何平衡商業利益與評測公正性將成為持久命題。公司正通過定期發布數據集、引入第三方審計等方式試圖建立信任屏障,但其商業模式本質上仍依賴行業共識的維持。














