阿里通義團隊近日宣布,面向全球開發者正式開源Qwen3-ASR系列語音識別模型及配套工具鏈。此次開源包含三款核心模型:Qwen3-ASR-1.7B、Qwen3-ASR-0.6B以及語音強制對齊模型Qwen3-ForcedAligner-0.6B,所有模型均開放權重參數與推理框架代碼,支持多語言、高并發場景下的靈活部署。
該系列模型基于團隊自主研發的AuT語音編碼器與Qwen3-Omni多模態基座架構構建,具備跨52種語言及方言的識別能力。其中,1.7B參數版本在中文、英文、帶口音中文、歌唱內容及強噪聲環境等復雜場景中表現優異,多項評測指標達到當前開源模型領先水平;0.6B參數版本則通過架構優化實現性能與效率的平衡,特別適用于實時語音交互、高并發音頻處理等工業級場景。
在效率測試中,Qwen3-ASR-0.6B展現顯著優勢:異步推理模式下,128路并發處理可實現約2000倍吞吐量提升,單節點10秒內可完成超過5小時音頻的轉寫任務。兩款ASR模型均支持流式與非流式混合推理,單次處理時長上限擴展至20分鐘,滿足長音頻場景需求。
同步開源的強制對齊模型Qwen3-ForcedAligner-0.6B采用非自回歸架構,可精準預測11種語言的語音時間戳。官方對比數據顯示,該模型在多基準測試中的對齊精度超越WhisperX、NeMo-ForcedAligner等主流方案,同時保持更低的計算資源消耗,特別適用于字幕生成、語音分析等需要毫秒級精度對齊的應用。
為降低技術落地門檻,團隊同步開源包含推理引擎與微調工具的完整框架。該框架集成vLLM加速庫,支持批量推理、異步服務、實時流處理及時間戳預測等功能,提供從模型部署到業務適配的一站式解決方案。開發者可通過標準化接口快速構建語音識別、語音分析等應用系統,加速技術成果向產業場景轉化。






