字節(jié)跳動于近日正式發(fā)布其最新研發(fā)的原生全雙工語音大模型Seeduplex,標(biāo)志著全雙工語音交互技術(shù)從實驗室走向大規(guī)模應(yīng)用階段。該模型突破了傳統(tǒng)半雙工語音交互的局限性,通過"邊聽邊說"的架構(gòu)設(shè)計,實現(xiàn)了更接近人類對話的自然流暢體驗。
相較于前代豆包端到端語音模型采用的半雙工模式,Seeduplex的創(chuàng)新之處在于能夠同時進(jìn)行語音接收與輸出。這種技術(shù)突破使得系統(tǒng)響應(yīng)延遲大幅降低,對話連貫性顯著增強(qiáng),尤其在多輪復(fù)雜對話場景中表現(xiàn)出色。據(jù)技術(shù)團(tuán)隊介紹,模型通過動態(tài)注意力分配機(jī)制,可精準(zhǔn)識別用戶語音中的關(guān)鍵信息,實現(xiàn)更智能的上下文理解。
目前該技術(shù)已全面集成至豆包App,成為國內(nèi)首個實現(xiàn)全雙工語音交互規(guī)模化落地的消費(fèi)級產(chǎn)品。這意味著超過一億用戶將能體驗到實時連續(xù)的語音對話服務(wù),無需等待系統(tǒng)完整回應(yīng)即可插入新指令。測試數(shù)據(jù)顯示,在車載導(dǎo)航、智能客服等高頻交互場景中,用戶滿意度較傳統(tǒng)模式提升40%以上。
行業(yè)專家指出,全雙工技術(shù)的商業(yè)化落地標(biāo)志著語音交互進(jìn)入新階段。傳統(tǒng)語音系統(tǒng)受限于半雙工架構(gòu),難以處理復(fù)雜對話場景中的打斷、修正等需求。Seeduplex的推出不僅解決了這些痛點,其輕量化設(shè)計更使得模型可適配多種終端設(shè)備,為智能家居、移動出行等領(lǐng)域帶來新的應(yīng)用可能。目前團(tuán)隊正持續(xù)優(yōu)化模型在嘈雜環(huán)境下的識別準(zhǔn)確率,并探索多語言支持方案。










