字節(jié)跳動(dòng)旗下豆包App迎來重大功能升級(jí)——原生全雙工語音大模型Seeduplex正式全量落地,成為全球首個(gè)實(shí)現(xiàn)規(guī)模化應(yīng)用的全雙工語音交互系統(tǒng)。這項(xiàng)突破性技術(shù)通過"邊聽邊說"的架構(gòu)設(shè)計(jì),徹底重構(gòu)了傳統(tǒng)AI語音對(duì)話模式,讓機(jī)器與人類的交流更接近自然對(duì)話狀態(tài)。
傳統(tǒng)語音交互系統(tǒng)普遍采用半雙工模式,用戶必須等待機(jī)器完成回答后才能繼續(xù)提問,這種"一問一答"的機(jī)械式交互嚴(yán)重制約了對(duì)話流暢度。Seeduplex創(chuàng)新性地實(shí)現(xiàn)了聽與說的同步處理,其核心優(yōu)勢(shì)體現(xiàn)在兩大技術(shù)突破:在抗干擾能力方面,模型通過持續(xù)聲學(xué)環(huán)境感知,可精準(zhǔn)過濾背景噪音和無關(guān)對(duì)話,復(fù)雜場(chǎng)景下的誤回復(fù)率和誤打斷率較傳統(tǒng)方案降低50%;在對(duì)話節(jié)奏控制上,通過語音語義特征融合判斷,模型既能耐心等待用戶思考,又能快速響應(yīng)結(jié)束發(fā)言,搶話現(xiàn)象減少40%。
多維度實(shí)測(cè)數(shù)據(jù)顯示,Seeduplex在對(duì)話流暢度(MOS評(píng)分提升12%)、整體通話滿意度(提升8.34%)等關(guān)鍵指標(biāo)上全面領(lǐng)先。特別在打斷響應(yīng)環(huán)節(jié),其表現(xiàn)已優(yōu)于人類對(duì)話平均水平,展現(xiàn)出對(duì)自然交流節(jié)奏的精準(zhǔn)把握。在判停準(zhǔn)確率方面,較半雙工方案提升8個(gè)百分點(diǎn),有效避免了"該停不停"或"未說完就斷"的尷尬情況。
技術(shù)落地的背后是強(qiáng)大的工程支撐。基于字節(jié)跳動(dòng)自研大語言模型底座,研發(fā)團(tuán)隊(duì)通過架構(gòu)創(chuàng)新、海量語音數(shù)據(jù)預(yù)訓(xùn)練、推理優(yōu)化等手段,攻克了高并發(fā)場(chǎng)景下的卡頓難題。該系統(tǒng)現(xiàn)已具備億級(jí)用戶承載能力,可穩(wěn)定支持大規(guī)模實(shí)時(shí)語音交互需求。
用戶只需將豆包App升級(jí)至最新版本,在"打電話"語音通話界面即可體驗(yàn)這項(xiàng)革命性功能。從實(shí)驗(yàn)室技術(shù)到億級(jí)用戶產(chǎn)品,Seeduplex的落地標(biāo)志著語音交互正式進(jìn)入全雙工時(shí)代,人機(jī)對(duì)話的流暢度與自然度迎來質(zhì)的飛躍。這項(xiàng)突破不僅重新定義了AI語音交互標(biāo)準(zhǔn),更為智能助手、在線教育、遠(yuǎn)程辦公等場(chǎng)景開辟了新的應(yīng)用可能。





