1 月 22 日消息,小米創辦人、董事長兼 CEO 雷軍今日宣布,小米多項 AI 創新成果入選國際頂級會議 ICASSP 2026,包括音頻理解、音樂生成評估、通用音頻 - 文本預訓練、視頻到音頻合成等多個 AI 領域的技術研究成果。
注:ICASSP 是全球音頻領域最具權威性與影響力之一的國際頂級學術會議,第一次會議于 1976 年在美國的費城舉辦,至今已有近 50 年的歷史。ICASSP 2026 將于今年 5 月在西班牙巴塞羅那舉辦。
小米本次入選國際頂級會議 ICASSP 2026 的 AI 創新成果如下:
《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》
論文作者:牛亞東、王天資、Heinrich Dinkel、孫興偉、周嘉豪、李罡、劉繼忠、張俊博、欒劍
在音頻理解領域,高質量數據集一直是提升模型性能的關鍵瓶頸。當前主流數據集普遍面臨“規模大但描述簡略”或“描述詳盡但規模受限”的局限性。為緩解這一矛盾,我們推出了 ACAVCaps。
該數據集通過創新的自動化管線,從多維度、多視角對音頻內容進行精細化刻畫,旨在突破現有數據集在規模與描述粒度上難以兼得的瓶頸。
ACAVCaps 構建了一套多級自動化標注框架。該管線利用多個專家模型并行提取原始音頻中的聲音事件、音樂特征、說話人屬性及語音內容等關鍵元數據。隨后,引入大語言模型(LLM)并采用思維鏈(Chain-of-Thought, CoT)推理策略,將碎片化的結構化信息進行邏輯整合。
這種方法實現了從整體感知、語音細節、音樂元素到特定聲音事件的全方位描述,使標注文本從單一的孤立標簽進化為具備邏輯層次和上下文信息的自然語言。
ACAVCaps 包含約 470 萬條音頻-文本對,推動音頻 AI 從簡單的“特征識別”向深度的“語義理解”發展。ACAVCaps 數據集近期將全面開源。
《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》
* 表示共同第一作者
論文作者:許浩然 *、李佳澤 *、鞠建忠、羅振波
聯邦學習中的域泛化和類別泛化一直是視覺語言模型(如 CLIP)高效微調面臨的核心挑戰。傳統方法通常單獨處理未見的類別或未見的域,例如通過提示調優技術優化類別泛化或域泛化,但往往因決策邊界混淆、計算資源限制等問題,導致在測試數據同時包含未見類別和未見域的復雜場景下性能受限。
為此,我們提出了一種新穎方法 FedDCG(Federated Joint Learning for Domain and Class Generalization),通過域分組策略和類特定協作訓練機制,首次在聯邦學習設置下聯合解決類別和域泛化問題,顯著提升了模型在未知環境中的準確性與魯棒性。
FedDCG 框架首先采用域分組策略,將客戶端數據按域劃分,并在每個域組內訓練獨立的類別泛化網絡,以避免類別和領域決策邊界之間的混淆。
具體來說,方法包含三大核心機制:在訓練階段,通過類特定域分組協作訓練交替優化類別泛化和域解耦知識;在推理階段,則基于領域相似性進行引導聚合,整合全局和域特定知識。其中,類別泛化網絡利用交叉注意力機制學習任務相關的提示向量,而域解耦訓練則通過全局提示和域提示分離通用與特定知識,增強泛化能力。
在 Office-Home 和 MiniDomainNet 等數據集上的大量實驗表明,FedDCG 在 ImageNet-R 和 ImageNet-A 等零樣本評估基準上均優于當前最先進的基線方法(如 FedTPG 和 DiPrompT)。例如,在 Office-Home 數據集上訓練、ImageNet-R 測試時,FedDCG 的平均準確率達到 70.30%,比次優方法 DiPrompT 高出近 3%;在低采樣率(50%)設置下,FedDCG 仍保持領先,證明了其在數據稀缺場景下的有效性。
FedDCG 不僅推動了聯邦學習在復雜泛化任務中的前沿,還為實際應用如跨域圖像分類和隱私保護下的模型部署提供了可行路徑。該方法的高魯棒性和效率使其適用于移動端智能處理等資源受限場景。
《FUSEMOS: PERCEPTUAL evalUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》
論文作者:楊靜、王皓宇、潘寧寧、王昭、楊劍軒、黃公平
生成音樂的感知評估對于文本到音樂(TTM)生成系統的發展至關重要。現有自動音樂感知評估方法主要依賴單一音頻編碼器提取音頻特征,以預測人類標注的平均意見分數(MOS)。然而,單一編碼器在捕捉音樂中復雜結構與細粒度特征方面能力有限。
為解決這一問題,本文提出 FUSEMOS,一個融合 CLAP 與 MERT 兩大預訓練模型的雙編碼器架構,通過優勢互補實現更精準、更貼近人類聽覺感知的評估。
CLAP 強化音頻與文本的語義對齊能力,捕捉“文意匹配”;MERT 則基于大規模音樂數據自監督訓練,有效建模旋律、節奏、和聲等內在音樂結構特征;采用晚期融合策略,保留各模態獨立表征能力,通過專用映射網絡在得分層進行融合,避免早期特征干擾,充分挖掘雙路徑的互補性;同時,引入排名感知復合損失函數,結合截斷回歸損失與對比排序損失,不僅提升預測精度,更顯著增強模型對人類偏好相對順序的理解能力,有效緩解傳統回歸損失對絕對評分偏差的敏感性。
在 Musiceval 基準上的實驗結果表明,FUSEMOS 在均方誤差(MSE)和排序相關性(如 Spearman 相關系數)等關鍵指標上均顯著優于現有方法,驗證了其在音樂感知評估中的有效性。
《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》
論文作者:Heinrich Dinkel、閆志勇、王天資、王永慶、孫興偉、牛亞東,劉繼忠、李罡、張俊博、欒劍
GLAP 實現了跨音頻領域(語音 / 音樂 / 環境音)與跨語言的音頻-文本對齊,能支持 RAG 形式的音頻搜索。它首次通過單一框架同時優化語音、音樂及聲音事件的檢索與分類性能,解決了傳統 CLAP 模型領域割裂的問題。在 LibriSpeech(英文)和 AISHELL-2(中文)語音檢索上達到約 94% 與 99% 的 recall@1,同時在 AudioCaps 等聲音檢索基準保持 SOTA 競爭力。
GLAP 具備多語言泛化能力,無需目標語種微調,即可在 50 種語言的關鍵詞識別(KWS)中展現 Zero-shot 能力。
GLAP 作為預訓練模型,可直接賦能小米“人車家全生態”中需跨模態理解的場景,如:復雜聲學場景下的魯棒語音交互、車載多模指令理解、家居異常聲音監測、以及音樂 / 音頻內容的跨語言檢索與生成。該模型將顯著降低下游產品線(手機、音箱、汽車、可穿戴設備)的音頻 AI 研發門檻,實現技術棧統一與效果提升。
《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》
論文作者:楊曉冉、楊劍軒、郭新月、王皓宇、潘寧寧、黃公平
MeanFlow 為多模態音頻生成任務構建了高效的基座模型,實現了視頻同步音效生成(V2A)場景中推理效率與生成質量的雙重突破,同時具備跨任務(視頻生音效 / 文本生音效)的穩定泛化能力。
MeanFlow 首次在 V2A 任務中通過平均速度場建模替代傳統流匹配(Flow Matching)模型的瞬時速度建模,從根本上解決了多步迭代采樣導致的推理速度瓶頸,實現推理階段的一步生成(one-step generation)。
針對無分類器引導(CFG)應用時易出現的一步生成失真問題,創新引入標量重縮放機制,通過精準平衡有條件與無條件預測,有效緩解失真現象。實驗驗證表明,該模型在實現推理速度 2×-500× 躍升的同時,可穩定保持優質的音效輸出,且確保音視頻語義對齊與時間同步性,綜合性能處于領域領先水平。
MeanFlow 核心突破“效率與質量不可兼得”的行業痛點,通過平均速度場建模與標量重縮放機制的雙重優化,在實現一步生成、推理速度大幅提升(8 秒音頻生成僅需 0.056 秒)的同時,精準保障音效生成質量(SOTA)、音頻分布匹配及音視頻同步性(TOP2)。
基于多模態條件聯合訓練,該優勢可自然延伸至文本生音效任務,無需額外微調適配即可實現音效穩定輸出,實現“提效不損質、多場景適配”的核心價值。
MeanFlow 作為高效多模態生成的核心支柱,可直接賦能需實時音視頻生成的各類實際場景,如:影視后期無聲視頻高效配音、短視頻平臺智能音效生成、虛擬形象實時交互、智能交互設備文本指令音效輸出等。
該模型將顯著降低下游音視頻創作與智能交互產品的研發門檻,推動實時音效生成技術在內容創作、人機交互等領域的規模化落地,實現技術效率與應用體驗的雙重提升。
* 中國人民大學-小米合作項目
論文作者:譚文輝、宋睿華、李佳澤、鞠建忠、羅振波
長視頻理解一直是多模態大語言模型(MLLMs)面臨的核心挑戰。傳統方法通常采用均勻幀采樣或單一查詢驅動的關鍵幀選擇策略,但往往因計算資源限制、語義覆蓋不全面等問題,導致對長視頻內容的理解效果受限。
TCS 框架首先通過多查詢推理模塊,利用 MLLM 從問題中自動生成多個視角的查詢(如物體、場景、動作等),替代傳統單一問題直接與幀匹配的方式,從而更全面地捕捉視頻中的語義信息。
隨后,基于 CLIP 模型計算各查詢與視頻幀的相似度,并通過聚合多視角得分增強幀選擇的多樣性與相關性。在幀采樣階段,TCS 提出片段級慢快采樣策略,將總幀預算劃分為“慢采樣”與“快采樣”兩部分:慢采樣集中于高相似度片段進行密集采樣,以捕捉局部細節;快采樣則從非高相關區域均勻抽取部分幀,保持全局上下文覆蓋。該策略有效避免了傳統 top-k 采樣導致的語義重疊與信息遺漏問題,實現了細節與整體之間的平衡。
在 MLVU、LongVideoBench 和 VideoMME 三大主流長視頻理解基準上的實驗表明,TCS 在 Qwen2-VL-7B 與 MiMo-VL-7B 等主流 MLLM 基礎上均取得顯著效果提升,其中在 MLVU 數據集上最高提升達 6.9%,且在保持相當性能的前提下,推理時間降低超過 50%。
作為一項無需訓練即插即用的增強框架,TCS 不僅顯著推進了 MLLM 在長視頻場景下的理解能力,也為資源受限的實際應用(如移動端視頻分析、短視頻智能處理等)提供了可行的技術路徑。
《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIeval VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》
論文作者:張馨元,張麗娜,陳立崧,劉光耀,聶帥,許家銘,史潤宇,黃英,張國全
在傳統檢索中,“找圖、找文、意圖理解”通常是三個獨立訓練的模型。意圖理解模型先解析查詢,將意圖分別送入圖像檢索和文本檢索模型,這會導致同一查詢被重復編碼檢索,且語義空間未對齊,從而增加內存占用、降低運行速度,并影響檢索準確性。
本研究提出了一種統的一多任務學習框架,將“找圖、找文、意圖理解”這三個任務整合到兩個模型,一個架構中,在該框架下,文本編碼器同時對齊圖像和文本的語義空間,并通過跨注意力機制與 NLU 模型進行語義交互。
通過這一設計,一個模型就可以同時完成找文與找圖任務,同時通過與 NLU 模型的跨注意力交互,實現意圖感知和語義增強,節省模型數量、降低系統內存占用,并增強模型間的語義能力。該框架支持多語言輸入,實現跨模態、跨語言的高效語義對齊,為小米手機場景下的多模態檢索提供了輕量化、高性能的解決方案。
該框架在找圖與找文任務上均達到或超過現有最優方法,在多語言測試中,XTD10 數據集平均召回率達 93.3%,Multi30K 數據集達 94.8%,均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%,在 COCO-QLTI 文本檢索數據集上平均性能達 85.1%,較原始文本編碼器提升 48.4%。本方法在降低模型復雜度和存儲開銷的同時,驗證了其在工業級多模態檢索場景中的實用性與可擴展性。












