滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026，多領(lǐng)域技術(shù)突破引領(lǐng)未來(lái)

時(shí)間：2026-01-22 19:00:44 來(lái)源：快訊編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

小米在人工智能領(lǐng)域再獲突破，其多項(xiàng)AI創(chuàng)新成果成功入選國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2026。這一會(huì)議作為全球音頻領(lǐng)域最具權(quán)威性與影響力的學(xué)術(shù)盛會(huì)之一，自1976年在美國(guó)費(fèi)城首次舉辦以來(lái)，已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行，小米的入選標(biāo)志著其在AI技術(shù)研發(fā)上的國(guó)際領(lǐng)先地位。

在音頻理解領(lǐng)域，小米團(tuán)隊(duì)推出了名為ACAVCaps的創(chuàng)新數(shù)據(jù)集。該數(shù)據(jù)集通過(guò)自動(dòng)化管線，從多維度、多視角對(duì)音頻內(nèi)容進(jìn)行精細(xì)化描述，解決了現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上難以兼得的瓶頸。ACAVCaps構(gòu)建了多級(jí)自動(dòng)化標(biāo)注框架，利用多個(gè)專家模型并行提取音頻中的關(guān)鍵元數(shù)據(jù)，并通過(guò)大語(yǔ)言模型和思維鏈推理策略進(jìn)行邏輯整合。這一方法使標(biāo)注文本從單一標(biāo)簽進(jìn)化為具備邏輯層次和上下文信息的自然語(yǔ)言。ACAVCaps包含約470萬(wàn)條音頻-文本對(duì)，將推動(dòng)音頻AI從簡(jiǎn)單的特征識(shí)別向深度的語(yǔ)義理解發(fā)展，并計(jì)劃近期全面開(kāi)源。

在聯(lián)邦學(xué)習(xí)領(lǐng)域，小米提出了FedDCG框架，首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問(wèn)題。傳統(tǒng)方法往往因決策邊界混淆、計(jì)算資源限制等問(wèn)題，在復(fù)雜場(chǎng)景下性能受限。FedDCG通過(guò)域分組策略和類特定協(xié)作訓(xùn)練機(jī)制，避免了類別和領(lǐng)域決策邊界之間的混淆，顯著提升了模型在未知環(huán)境中的準(zhǔn)確性與魯棒性。實(shí)驗(yàn)表明，F(xiàn)edDCG在多個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的基線方法，尤其在數(shù)據(jù)稀缺場(chǎng)景下仍保持領(lǐng)先，為跨域圖像分類和隱私保護(hù)下的模型部署提供了可行路徑。

在音樂(lè)生成感知評(píng)估方面，小米團(tuán)隊(duì)提出了FUSEMOS架構(gòu)。現(xiàn)有自動(dòng)音樂(lè)感知評(píng)估方法主要依賴單一音頻編碼器，難以捕捉音樂(lè)中的復(fù)雜結(jié)構(gòu)與細(xì)粒度特征。FUSEMOS融合了CLAP與MERT兩大預(yù)訓(xùn)練模型，通過(guò)雙編碼器架構(gòu)實(shí)現(xiàn)更精準(zhǔn)、更貼近人類聽(tīng)覺(jué)感知的評(píng)估。實(shí)驗(yàn)結(jié)果表明，F(xiàn)USEMOS在關(guān)鍵指標(biāo)上顯著優(yōu)于現(xiàn)有方法，驗(yàn)證了其在音樂(lè)感知評(píng)估中的有效性。

小米還提出了GLAP模型，實(shí)現(xiàn)了跨音頻領(lǐng)域與跨語(yǔ)言的音頻-文本對(duì)齊。GLAP首次通過(guò)單一框架同時(shí)優(yōu)化語(yǔ)音、音樂(lè)及聲音事件的檢索與分類性能，解決了傳統(tǒng)CLAP模型領(lǐng)域割裂的問(wèn)題。該模型在多個(gè)語(yǔ)音和聲音檢索基準(zhǔn)上保持競(jìng)爭(zhēng)力，并具備多語(yǔ)言泛化能力，無(wú)需目標(biāo)語(yǔ)種微調(diào)即可在50種語(yǔ)言的關(guān)鍵詞識(shí)別中展現(xiàn)Zero-shot能力。GLAP將直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場(chǎng)景，如復(fù)雜聲學(xué)場(chǎng)景下的魯棒語(yǔ)音交互、車載多模指令理解等。

在視頻到音頻合成領(lǐng)域，小米團(tuán)隊(duì)提出了MeanFlow模型，實(shí)現(xiàn)了推理效率與生成質(zhì)量的雙重突破。MeanFlow通過(guò)平均速度場(chǎng)建模替代傳統(tǒng)流匹配模型的瞬時(shí)速度建模，解決了多步迭代采樣導(dǎo)致的推理速度瓶頸，實(shí)現(xiàn)推理階段的一步生成。實(shí)驗(yàn)表明，MeanFlow在推理速度大幅提升的同時(shí)，精準(zhǔn)保障了音效生成質(zhì)量，并確保音視頻語(yǔ)義對(duì)齊與時(shí)間同步性。該模型將顯著降低下游音視頻創(chuàng)作與智能交互產(chǎn)品的研發(fā)門檻，推動(dòng)實(shí)時(shí)音效生成技術(shù)的規(guī)模化落地。

在多模態(tài)檢索領(lǐng)域，小米提出了一種統(tǒng)一的多任務(wù)學(xué)習(xí)框架，將“找圖、找文、意圖理解”整合到兩個(gè)模型中。該框架通過(guò)文本編碼器同時(shí)對(duì)齊圖像和文本的語(yǔ)義空間，并通過(guò)跨注意力機(jī)制與NLU模型進(jìn)行語(yǔ)義交互，實(shí)現(xiàn)了意圖感知和語(yǔ)義增強(qiáng)。實(shí)驗(yàn)表明，該框架在找圖與找文任務(wù)上均達(dá)到或超過(guò)現(xiàn)有最優(yōu)方法，并支持多語(yǔ)言輸入，為小米手機(jī)場(chǎng)景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

02-20

消息稱Meta重啟智能手表項(xiàng)目，“Malibu 2”機(jī)型今年內(nèi)發(fā)布

02-20

亞馬遜成全球營(yíng)收最高企業(yè)

02-20

沙特基金HUMAIN在xAI與SpaceX合并前向xAI投資30億美元

02-20

為啥無(wú)線充只有5W？手機(jī)無(wú)線充電協(xié)議盤點(diǎn)

02-20

2026年2月小米17怎么選：一文看懂小米17系列的全部賣點(diǎn)

02-20

谷歌Gemini 3.1 Pro發(fā)布：推理能力翻倍，專為復(fù)雜任務(wù)而生

02-20

谷歌Gemini 3.1 Pro發(fā)布：推理能力翻倍

02-20

谷歌Gemini上線音樂(lè)模型一句話即可生成歌曲

02-20

馬斯克公布特斯拉CyberCab售價(jià)

02-20

AppLovin計(jì)劃推出自有社交媒體平臺(tái)

02-20

免注冊(cè)、免費(fèi)用：DuckDuckGo上線AI修圖功能

02-20

馬斯克公布特斯拉CyberCab售價(jià)

02-20

字節(jié)跳動(dòng)在美國(guó)組建人工智能團(tuán)隊(duì)，計(jì)劃招聘100多人

02-20

世界之巔！亞馬遜銷售額超過(guò)沃爾瑪，成全球最大公司

02-20

點(diǎn)擊查看更多 +

全站最新

四十屆龍?zhí)稄R會(huì)年味濃，傳統(tǒng)與潮流碰撞，解鎖新春“逛吃玩購(gòu)”新體驗(yàn)

美股三大指數(shù)集體收跌，迪爾農(nóng)機(jī)大漲12%，中概指數(shù)跌0.4%

美AI兩巨頭峰會(huì)拒牽手畫面瘋傳掀熱議

"AI除幻"新星崛起：海致科技港交所首秀暴漲，未來(lái)增長(zhǎng)路在何方？

2026北京旅行社權(quán)威榜單揭曉！十大可靠之選，助您暢游京城無(wú)憂行

從浪漫雪地到魔性雞圈，代寫服務(wù)玩出花，土味浪漫也能讓人笑出鵝叫！

熱門內(nèi)容

本欄最新

2026春晚機(jī)器人“組團(tuán)”登場(chǎng)，商業(yè)化加速，產(chǎn)業(yè)拐點(diǎn)已至？

四十屆龍?zhí)稄R會(huì)年味濃，傳統(tǒng)與潮流碰撞，解鎖新春“逛吃玩購(gòu)”新體驗(yàn)

"AI除幻"新星崛起：海致科技港交所首秀暴漲，未來(lái)增長(zhǎng)路在何方？

2026北京旅行社權(quán)威榜單揭曉！十大可靠之選，助您暢游京城無(wú)憂行

字節(jié)跳動(dòng)豆包大模型2.0上線，數(shù)學(xué)推理多模態(tài)能力出眾且成本優(yōu)勢(shì)顯著

字節(jié)跳動(dòng)于美組建AI團(tuán)隊(duì)擬招超百人，此前推新模型遭好萊塢制片廠抨擊

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026，多領(lǐng)域技術(shù)突破引領(lǐng)未來(lái)