阿里千問團隊近日宣布,其自主研發的Qwen3-ASR系列語音識別模型正式開源。該系列包含兩款核心語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B,以及創新型語音強制對齊模型Qwen3-ForcedAligner-0.6B,形成覆蓋多語種、多場景的完整解決方案。此次開源不僅包含模型架構與權重參數,還同步推出配套推理框架,為學術界與產業界提供端到端的技術支持。
在技術架構層面,Qwen3-ASR系列依托自主研發的AuT語音編碼器與Qwen3-Omni多模態基座模型,實現語音識別性能的突破性提升。其中1.7B參數版本在中文、英文及混合口音場景中達到行業領先水平,特別是在噪聲干擾環境下仍能保持98%以上的識別準確率。0.6B參數版本則通過架構優化實現性能與效率的平衡,在128并發異步推理場景下可達到2000倍吞吐量,處理5小時音頻僅需10秒,滿足實時語音轉寫需求。
該系列模型支持全球52種語言及方言的識別,涵蓋30個語種的語音識別、22種中文方言及多國英語口音。在歌唱識別專項測試中,1.7B版本對帶背景音樂的中文歌曲轉寫錯誤率低至13.91%,英文歌曲達14.60%,顯著優于同類開源模型。針對兒童語音、低信噪比等復雜場景,模型通過自適應聲學建模技術,將字詞錯誤率控制在行業最低水平。
創新推出的Qwen3-ForcedAligner-0.6B強制對齊模型采用非自回歸推理架構,支持11種語言的任意語音片段時間戳標注。經權威測試,該模型在5分鐘以內音頻的時間戳預測精度超越WhisperX、NeMo等傳統方案,單并發推理延遲僅0.0089秒,可滿足影視字幕制作、語音教學等高精度需求場景。
配套開源的推理框架集成vLLM加速技術,支持流式/非流式混合推理、批量處理及時間戳預測等功能。開發者可通過HuggingFace、ModelScope等平臺直接調用模型資源,或基于阿里云百煉API快速構建語音識別服務。此次開源包含完整的模型訓練代碼與微調工具包,為語音技術社區提供可復現的研究基準。










