國家數據局近日正式將“詞元”確立為Token的官方譯名,這一舉措不僅為行業術語統一奠定基礎,更折射出人工智能領域底層架構的深刻變革。據披露,國內日均Token調用量已突破140萬億規模,但當前仍以文本處理為主。隨著語音、視頻及實時交互場景的爆發式增長,Token的生成與消耗模式正經歷根本性轉變——從離散文本向連續感知躍遷,從低頻批量輸入轉向高頻流式處理,這種范式轉換將直接決定下一代AI系統的能力邊界與成本結構。
在學術領域,復旦大學邱錫鵬教授早在2021年便提出“詞元”譯法,強調其既區別于自然語言的“詞”概念,又保留語言處理基本單位的本質。隨著大模型技術從文本向多模態延伸,詞元已超越術語范疇,演變為智能系統底層組織的核心要素。這種認知轉變正引發資本市場的連鎖反應,近期完成數億元天使輪融資的模思智能(MOSI)便是典型案例,其投資者包括IDG資本、元禾控股等知名機構,多維資本擔任獨家財務顧問。
模思智能的技術路線呈現出鮮明的非共識特征。當行業普遍聚焦文本大模型時,該公司選擇從語音切入構建全模態架構。其核心邏輯在于:音頻信息密度遠超文本,天然承載語調、節奏等情感信號,且能與環境動作形成連續輸入流,更貼近真實人機交互場景。通過將語音轉化為離散Token序列,公司成功構建起跨模態統一計算框架,使機器首次具備在同一體系內處理語音與文本的能力。
這種技術突破在2023年5月發布的SpeechGPT中得到驗證,該模型首次實現連續語音信號到離散Token的端到端映射。同年8月推出的SpeechTokenizer進一步將語義Token與聲學Token融合,為多模態建模奠定基礎。2024年2月發布的AnyGPT則完成關鍵跨越,將語音、文本、圖像、視頻統一映射至離散Token體系,開創了真正意義上的全模態基座模型架構。
技術演進呈現清晰的遞進關系:2025年7月開源的MOSS-TTSD語音模型,在播客配音等長內容場景展現優勢;11月發布的NEX能動性模型體系,在工具使用、后端開發等基準測試中躋身全球前列;2026年推出的MOVA音視頻生成模型與MOSS-Audio-Tokenizer音頻編碼器,持續刷新性能指標。這些成果構成完整的能力閉環,證明離散化架構在多模態智能領域的普適性。
支撐技術突破的是復合型團隊結構。首席科學家邱錫鵬作為國家杰青獲得者,在端到端語音大模型領域保持技術領先,其著作成為高校經典教材。CEO李世民出身學術體系卻具備產業思維,帶領近百人團隊實現50%博士占比,核心成員多來自復旦大學NLP實驗室。區別于傳統學術創業,模思智能由上海創智學院與復旦大學聯合孵化,獲得算力支持、人才網絡與產業資源的體系化賦能。
商業化進程同樣加速推進。公司多模態大模型開放平臺已進入公測階段,提供穩定高效的API服務,在消費電子、智能汽車等領域與頭部企業建立合作。其商業模式圍繞詞元的全生命周期展開,從基座模型能力輸出延伸至2B、2B2C、2C多層級場景,形成技術轉化與商業落地的雙向驅動。
這場變革背后,是行業對下一代智能本質的深度思考。當參數堆砌與算力競賽逐漸觸及天花板,架構創新與系統組織能力成為新的競爭焦點。模思智能的實踐表明,真正的技術壁壘不在于規模擴張,而在于能否提前布局智能系統的核心結構——統一的Token表達體系、持續情境理解能力,以及具備工具調用與長期關系維護的Agent系統。隨著“詞元”概念進入官方語境,這場關于智能系統邊界定義的競賽才剛剛拉開帷幕。











