3 月 19 日消息,代號為“Hunter Alpha”的神秘模型本月(3 月)在全球最大 API 聚合平臺 OpenRouter 引發熱議,一度登上大模型調用榜第一,不少網友猜測是“DeepSeek V4”早期版本。
今天(19 日)凌晨,小米正式認領“Hunter Alpha”,宣布推出三款大模型 —— MiMo-V2-Pro & Omni & TTS,可限時免費體驗一周。
隨后,小米 MiMo 大模型負責人羅福莉發布長文,表示這是小米首款真正為智能體時代打造的全棧產品系列。
我稱之為一次悄無聲息的伏擊 —— 并非因為我們事先策劃,而是因為從聊天模式到智能代理模式的轉變發生得太快,連我們自己都難以置信。在這兩者之間,經歷了一個既激動人心又痛苦不堪,同時又引人入勝的過程。
1T 基礎模型幾個月前就開始訓練了。最初的目標是提高長上下文推理的效率。混合注意力機制帶來了真正的創新,卻又不至于過度擴張 —— 事實證明,它正是智能體時代最合適的基石。1M 上下文窗口。MTP 推理實現超低延遲和成本。這些架構決策并非一時興起,而是我們在需要之前就構建的結構性優勢。
真正改變一切的是我第一次體驗到復雜的智能體框架 —— 我稱之為“精心編排的語境”。第一天我就震驚了。我試圖說服團隊使用它,但沒有成功。于是我下達了一條強硬指令:MiMo 團隊中,明天對話次數少于 100 次的成員可以辭職。這招奏效了。一旦團隊的想象力被智能體系統的功能所激發,這種想象力便直接轉化為研究速度。
人們問我們為什么發展如此迅速。我在構建 DeepSeek R1 時親身經歷了這一點。我的真實總結是:
—— 骨干網和基礎設施研究周期很長。你需要一年的戰略決心才能看到回報。
—— 訓練后敏捷性是一種不同的能力:產品直覺驅動評估,迭代周期縮短,范式轉變及早發生。
—— 以及不變的:好奇心、敏銳的技術直覺、果斷的執行力、全身心的投入。
—— 還有一點很容易被低估:對你所創造的世界的真摯熱愛。
羅福莉還承諾,新的 MiMo-V2 系列模型會開源 —— 當模型足夠穩定,值得開源的時候。











