阿里千問團隊近日宣布正式開源Qwen3-ASR系列語音識別模型,該系列包含兩個通用語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B,以及一個專門用于語音時間戳預(yù)測的強制對齊模型Qwen3-ForcedAligner-0.6B。此次開源不僅開放了模型結(jié)構(gòu)與權(quán)重,還同步推出配套的推理框架,旨在為語音識別領(lǐng)域提供更高效的解決方案。
Qwen3-ASR系列模型的核心優(yōu)勢在于其多語言支持能力。其中1.7B與0.6B版本均通過單一模型架構(gòu)實現(xiàn)對30種語言的語種識別、22種中文方言及多國英文口音的語音識別。在復(fù)雜場景下,這兩個模型展現(xiàn)出強大的適應(yīng)性,包括嘈雜環(huán)境、特殊文本模式以及歌唱場景的語音轉(zhuǎn)寫。實驗數(shù)據(jù)顯示,1.7B版本在中文、英文及方言識別等任務(wù)中達到開源領(lǐng)域最優(yōu)水平,其歌唱識別功能甚至能處理帶背景音樂的完整歌曲轉(zhuǎn)寫。
性能與效率的平衡是0.6B版本的突出特點。該模型在保持識別準確率的同時,通過異步推理架構(gòu)實現(xiàn)顯著的速度提升。在128并發(fā)處理場景下,其吞吐量可達常規(guī)處理的2000倍,僅需10秒即可完成5小時音頻的轉(zhuǎn)寫任務(wù)。兩個版本均支持流式與非流式混合推理,最長可處理20分鐘連續(xù)音頻,滿足實時與離線場景的雙重需求。
強制對齊模型Qwen3-ForcedAligner-0.6B采用非自回歸推理架構(gòu),支持11種語言的語音時間戳精準標注。相較于傳統(tǒng)端到端方案,該模型在時間戳預(yù)測精度上提升顯著,單并發(fā)推理延遲低至0.0089秒。其獨特優(yōu)勢在于可對音頻任意片段進行靈活標注,特別適用于需要精確時間對齊的語音分析任務(wù)。
技術(shù)實現(xiàn)層面,Qwen3-ASR系列依托創(chuàng)新的AuT語音編碼器與Qwen3-Omni多模態(tài)基座模型。這種架構(gòu)設(shè)計使模型既能捕捉語音的聲學(xué)特征,又能理解語言層面的語義信息。在噪聲抑制、口音適應(yīng)等挑戰(zhàn)性場景中,模型通過多模態(tài)信息融合保持穩(wěn)定輸出,字錯誤率較主流商用API降低20%以上。
配套開源的推理框架提供完整的功能支持,包括基于vLLM的批量推理、異步服務(wù)部署、流式處理以及時間戳預(yù)測等。開發(fā)者可通過該框架快速構(gòu)建語音識別應(yīng)用,無需額外開發(fā)底層處理邏輯。框架設(shè)計充分考慮不同場景需求,既支持輕量級部署,也能滿足高并發(fā)工業(yè)級應(yīng)用。
在評估基準測試中,Qwen3-ASR-1.7B在多個維度展現(xiàn)領(lǐng)先性能。英文識別任務(wù)中,該模型在覆蓋16國口音的測試集上全面超越GPT-4o Transcribe、Gemini系列等商用系統(tǒng);多語種測試中,20種主流語言的平均詞錯誤率優(yōu)于現(xiàn)有開源模型;中文方言識別任務(wù)較同類模型錯誤率降低20%。0.6B版本則在效率指標上表現(xiàn)突出,離線推理速度提升100倍,在線服務(wù)吞吐量達行業(yè)領(lǐng)先水平。
此次開源項目通過GitHub、HuggingFace和ModelScope等平臺同步發(fā)布,提供模型下載、在線演示及API調(diào)用服務(wù)。研究團隊同步公開了技術(shù)論文,詳細闡述模型架構(gòu)設(shè)計與訓(xùn)練方法。該系列模型的開源將為語音識別技術(shù)研究提供新的基準,推動多語言處理、實時轉(zhuǎn)寫等應(yīng)用場景的創(chuàng)新發(fā)展。










