人工智能初創公司 Inception Labs 近日宣布推出 Mercury2,這不僅是一個性能強勁的推理模型,更在底層架構上實現了一次大膽的“范式轉移”。
該模型徹底棄用了目前主流的 Transformer 架構,轉而采用擴散模型(Diffusion-based)來生成文本,試圖打破傳統大模型的性能瓶頸。
與傳統模型逐個生成 Token(字符)的方式不同,Mercury2的工作原理更像是一位經驗豐富的編輯。它不再是一個字一個字地往外蹦,而是能夠同時對多個文本塊進行全局優化和重寫。這種并行處理的邏輯,讓 Mercury2在處理復雜邏輯推理任務時,展現出了令人驚嘆的速度優勢。
根據 AIbase 獲取的實測數據,在英偉達 Blackwell GPU 的驅動下,Mercury2的生成速度達到了驚人的每秒1009個 Token。在端到端延遲測試中,該模型僅需1.7秒即可完成響應,這一表現比谷歌的 Gemini3Flash 快了8倍以上,更是遠超 Anthropic 的 Claude Haiku4.5。盡管速度極快,但在 GPQA Diamond 和 AIME 等權威推理基準測試中,它的質量依然能與當前頂尖的輕量化推理模型并駕齊驅。
在商業策略上,Inception Labs 采取了極具競爭力的定價方案,其輸入與輸出成本僅為同類競品的四分之一。目前,Mercury2已正式開放 API 接口,并支持12.8萬 Token 的超長上下文及工具調用功能。對于追求極致響應速度的語音助手、搜索系統及編程工具而言,這款“不走尋常路”的擴散推理模型無疑提供了一個極具吸引力的新選擇。
概要:











