滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

阿里千問團隊推出Qwen3-ASR系列模型，52種語種方言識別助力語音技術(shù)新突破

時間：2026-01-30 03:33:48 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

阿里千問團隊近日宣布正式開源Qwen3-ASR系列語音識別模型，該系列包含兩個通用語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B，以及一個專門用于語音時間戳預(yù)測的強制對齊模型Qwen3-ForcedAligner-0.6B。此次開源不僅開放了模型結(jié)構(gòu)與權(quán)重，還同步推出配套的推理框架，旨在為語音識別領(lǐng)域提供更高效的解決方案。

Qwen3-ASR系列模型的核心優(yōu)勢在于其多語言支持能力。其中1.7B與0.6B版本均通過單一模型架構(gòu)實現(xiàn)對30種語言的語種識別、22種中文方言及多國英文口音的語音識別。在復(fù)雜場景下，這兩個模型展現(xiàn)出強大的適應(yīng)性，包括嘈雜環(huán)境、特殊文本模式以及歌唱場景的語音轉(zhuǎn)寫。實驗數(shù)據(jù)顯示，1.7B版本在中文、英文及方言識別等任務(wù)中達到開源領(lǐng)域最優(yōu)水平，其歌唱識別功能甚至能處理帶背景音樂的完整歌曲轉(zhuǎn)寫。

性能與效率的平衡是0.6B版本的突出特點。該模型在保持識別準確率的同時，通過異步推理架構(gòu)實現(xiàn)顯著的速度提升。在128并發(fā)處理場景下，其吞吐量可達常規(guī)處理的2000倍，僅需10秒即可完成5小時音頻的轉(zhuǎn)寫任務(wù)。兩個版本均支持流式與非流式混合推理，最長可處理20分鐘連續(xù)音頻，滿足實時與離線場景的雙重需求。

強制對齊模型Qwen3-ForcedAligner-0.6B采用非自回歸推理架構(gòu)，支持11種語言的語音時間戳精準標注。相較于傳統(tǒng)端到端方案，該模型在時間戳預(yù)測精度上提升顯著，單并發(fā)推理延遲低至0.0089秒。其獨特優(yōu)勢在于可對音頻任意片段進行靈活標注，特別適用于需要精確時間對齊的語音分析任務(wù)。

技術(shù)實現(xiàn)層面，Qwen3-ASR系列依托創(chuàng)新的AuT語音編碼器與Qwen3-Omni多模態(tài)基座模型。這種架構(gòu)設(shè)計使模型既能捕捉語音的聲學(xué)特征，又能理解語言層面的語義信息。在噪聲抑制、口音適應(yīng)等挑戰(zhàn)性場景中，模型通過多模態(tài)信息融合保持穩(wěn)定輸出，字錯誤率較主流商用API降低20%以上。

配套開源的推理框架提供完整的功能支持，包括基于vLLM的批量推理、異步服務(wù)部署、流式處理以及時間戳預(yù)測等。開發(fā)者可通過該框架快速構(gòu)建語音識別應(yīng)用，無需額外開發(fā)底層處理邏輯。框架設(shè)計充分考慮不同場景需求，既支持輕量級部署，也能滿足高并發(fā)工業(yè)級應(yīng)用。

在評估基準測試中，Qwen3-ASR-1.7B在多個維度展現(xiàn)領(lǐng)先性能。英文識別任務(wù)中，該模型在覆蓋16國口音的測試集上全面超越GPT-4o Transcribe、Gemini系列等商用系統(tǒng)；多語種測試中，20種主流語言的平均詞錯誤率優(yōu)于現(xiàn)有開源模型；中文方言識別任務(wù)較同類模型錯誤率降低20%。0.6B版本則在效率指標上表現(xiàn)突出，離線推理速度提升100倍，在線服務(wù)吞吐量達行業(yè)領(lǐng)先水平。

此次開源項目通過GitHub、HuggingFace和ModelScope等平臺同步發(fā)布，提供模型下載、在線演示及API調(diào)用服務(wù)。研究團隊同步公開了技術(shù)論文，詳細闡述模型架構(gòu)設(shè)計與訓(xùn)練方法。該系列模型的開源將為語音識別技術(shù)研究提供新的基準，推動多語言處理、實時轉(zhuǎn)寫等應(yīng)用場景的創(chuàng)新發(fā)展。

更多>同類資訊

馬斯克透露SpaceX月球建城或近10年達成火星建城計劃也已提上日程

綜合俄新社等媒體報道，美國太空探索技術(shù)公司（SpaceX）創(chuàng)始人馬斯克當(dāng)?shù)貢r間8日在社交平臺上發(fā)帖稱，SpaceX公司將在月球和火星上建城市。馬斯克在帖子中稱，“SpaceX已經(jīng)將重心轉(zhuǎn)移至在月球上建一座自…

02-09

馬斯克戰(zhàn)略轉(zhuǎn)向：優(yōu)先10年內(nèi)建月球城市，火星計劃延后仍推進

當(dāng)?shù)貢r間2月8日，馬斯克在社交平臺X發(fā)帖稱，“SpaceX已經(jīng)將重心轉(zhuǎn)移至在月球上建造一座可自我擴張的城市上，因為我們有望在10年內(nèi)實現(xiàn)這一目標，而前往火星則需要20年以上。” 此前據(jù)財聯(lián)社2月8日消息，馬…

02-09

馬斯克布局星際藍圖：SpaceX擬建月球城市，火星計劃同步推進并收購xAI

馬斯克在帖子中稱，“SpaceX已經(jīng)將重心轉(zhuǎn)移至在月球上建一座自我發(fā)展型城市，我們有可能在不到10年內(nèi)實現(xiàn)目標，在火星上實現(xiàn)這一目標可能需要超過20年時間”。當(dāng)?shù)貢r間2月2日，SpaceX發(fā)表聲明，宣布已…

02-09

從地面到太空：中國太空數(shù)據(jù)中心布局，開啟數(shù)字競爭力新紀元

太空數(shù)據(jù)中心的兩大“神級buff”太空數(shù)據(jù)中心最吸引人的，是它從根本上解決了地面數(shù)據(jù)中心的兩大痛點：能源卡脖子和散熱老大難。這種在源頭上絕對的豐沛與穩(wěn)定，是將大規(guī)模AI算力搬上太空、從幻想走入現(xiàn)實的物理基石…

02-09

馬斯克“變道”：SpaceX戰(zhàn)略轉(zhuǎn)向月球，太空算力與AI機器人開啟新征程

"馬斯克直言，地球電力瓶頸將成為AI發(fā)展的天花板，而太空是唯一解法。馬斯克將Optimus稱為"無限印鈔機"，強調(diào)"數(shù)字智能、AI芯片能力和機電靈巧度這三樣?xùn)|西都在呈指數(shù)級增長，而它們的乘積就是機器人的能力…

02-09

意法半導(dǎo)體與亞馬遜云科技深化合作共推數(shù)據(jù)中心半導(dǎo)體技術(shù)升級

02-09

Waymo推出世界模型：可生成逼真3D環(huán)境，還能模擬罕見駕駛場景

02-09

2026熟齡綜藝“破圈”進行時：50+群體演繹真實，多元賽道全面開花

02-09

1月快手酒水消費新圖景：區(qū)域名酒崛起，啤酒高端化，葡萄酒格局生變

02-09

2025“網(wǎng)紅”飲品圖鑒：勁酒新身份、冰杯創(chuàng)意搭、糖水再翻紅

02-09

《太平年》熱播：冷門歷史如何借影視東風(fēng)，點燃文旅融合新火花？

02-09

順豐啟動"春季增收"計劃：2億補貼助力一線快遞員3個月內(nèi)人均增收約500元

02-09

特斯拉賽博無人駕駛電動車Cybercab：得州工廠量產(chǎn)在即，目標年產(chǎn)200萬輛

02-09

蘋果入門新機iPhone 17e配置保守引討論網(wǎng)友：加預(yù)算選iPhone 17更香

02-09

千問“免單卡”助力年貨采購：覆蓋多品類商超，活動延長至2月28日

02-09

點擊查看更多 +

全站最新

馬斯克透露：蘋果“Project Titan”期間高薪挖角特斯拉工程師，遭果斷拒接電話

當(dāng)算力競賽退潮，萬億增量的錨點正轉(zhuǎn)向AI"深水區(qū)"

港股收評：恒指漲1.76%重回二萬七上方，科技與金融普漲，AI應(yīng)用概念股大幅拉升

影視ETF漲超7%，Seedance2.0 AI視頻生成模型爆火，8部影片定檔春節(jié)檔

龍虎榜丨中文在線20CM漲停，廣發(fā)證券杭州富春路營業(yè)部凈買入3.89億元

龍虎榜丨捷成股份20CM漲停，佛山系凈買入2.03億元

熱門內(nèi)容

本欄最新

馬斯克透露：蘋果“Project Titan”期間高薪挖角特斯拉工程師，遭果斷拒接電話

2026 PQQ選購指南：十大品牌實測揭秘成分純度與臨床數(shù)據(jù)雙保障

情感營銷+全渠道布局+產(chǎn)業(yè)鏈賦能：十月稻田如何筑牢長期增長基石？

千億零售巨頭高鑫零售“風(fēng)暴”來襲：新CEO上任倆月失聯(lián)，轉(zhuǎn)型路在何方？

小米YU7 GT現(xiàn)身工信部：超千馬力+紐北測試，性能車市場要變天？

小米YU7GT來襲：1004馬力雙電機四驅(qū)，紐北賽道挑戰(zhàn)電動SUV速度新巔峰

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里千問團隊推出Qwen3-ASR系列模型，52種語種方言識別助力語音技術(shù)新突破