滾動資訊

當前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內容

豆包成精了！告別機械感，上億人手機上線

時間：2026-04-09 19:01:14 來源：新智元編輯：快訊 IP：北京 發(fā)表評論無障礙通道

編輯：犀牛桃子

AI交互的「機械感」消失了！今天，豆包甩出原生全雙工語音大模型Seeduplex，不僅能邊聽邊說，甚至能聽懂你在思考時的「卡殼」，就算環(huán)境再吵也不怕，抗干擾能力直接拉滿。

終于等來這一天！AI語音交互，終于像個人了。

今天，字節(jié)跳動Seed團隊悄然出手——

原生全雙工語音大模型Seeduplex正式發(fā)布，并已在豆包App全量上線。

注意，是全量上線。不是內測，不是灰度，不是「敬請期待」。

豆包的語音交互體驗一直是獨一檔，和老羅辯論也不在話下。

但是從今天起，上億豆包用戶打開App的那一刻，就能直接體驗到一種前所未有的感覺——

AI不再是那個等你說完一句、按一下、再說下一句的乖學生，而是一個會邊聽邊說、會等你思考、會被你打斷、還能聽懂你咖啡館里在聊什么的「對話搭子」。

這是一件被業(yè)內低估了的大事。

它意味著：全雙工語音技術，第一次真正走出了實驗室，在業(yè)界率先實現(xiàn)了規(guī)?；涞?。

我們第一時間沖上去做了幾輪實測。

說實話，體驗下來只有一個感受：那種和AI說話時如鯁在喉的「機械感」，終于消失了。

那個總是「搶話」的 AI

終于像個真人了

通常來說，人與人的交互，存在著大量的信息交疊、打斷、遲疑、環(huán)境噪音等。

傳統(tǒng)的「半雙工」語音AI，在面對這些復雜場景時，往往會力不從心——

要么在你剛停頓思考時強行搶話，要么在嘈雜環(huán)境中胡言亂語。

這一次，在保持極速響應的同時，Seeduplex啃下了「精準抗干擾」與「動態(tài)判?！沟膬蓧K硬骨頭。

想要上手非常簡單，把豆包App升級到最新版本，進入后點擊右上角打電話，即可開啟「語音通話」的絲滑體驗了。

場景一：咖啡廳里聊行程，精準抗干擾

假設進入一家人聲鼎沸的咖啡館里，和豆包討論周末去哪兒玩。

背景里，鄰桌大叔在大聲講電話，服務員的報單聲此起彼伏，咖啡機在嗡嗡作響......

聊到一半，我順手轉向前臺：「你好，我要一杯拿鐵，不加糖」。

在這樣吵鬧的環(huán)境中，放在過去任何一個語音助手身上，幾乎都是「車禍現(xiàn)場」——

要么把對別人說的話當成新指令一本正經(jīng)地執(zhí)行，要么直接卡殼中斷，得重新喊一遍喚醒詞才能接著聊。

令人驚喜的是，豆包沒有搶話，并在嘈雜環(huán)境下保持極強的抗干擾力。

它只是安靜地停了一下，等你把咖啡點完，然后順著剛才的話題繼續(xù)往下接，仿佛中間那段嘈雜從未發(fā)生過。

自動播放

它不是單純把背景噪音「降掉」，而是在持續(xù)聆聽的同時，判斷誰在對它說話、哪句話是主線交互、哪句話只是環(huán)境聲。

這個差別非常大：前者只是聲學降噪，后者已經(jīng)開始接近「交互意圖識別」。

場景二：英文面試模擬，我故意卡殼了5秒

讓豆包扮演一個外企面試官，然后故意在回答「為什么申請這個職位」時卡住——

... um... um... I'm a great fit because...

um... Let me think... um

真正的人類面試官會知道，你不是說完了，你只是在想。

這要是換做是以前的語音模型，早在每一次「um/uh」之后，火急火燎地跳出來接話。

結果，硬生生地把面試模擬變成「搶答比賽」，毫無一點沉浸感。

下面demo中，Seeduplex就像一個有涵養(yǎng)的面試官，始終安靜地聽我磕磕絆絆地組織語言，不急不躁，沒有一次搶話。

自動播放

直到我真正講完，它才不緊不慢地遞出下一個問題。

Seeduplex這次強調的「動態(tài)判?！?，本質上就是解決這個問題：

它不再只靠靜音時長來猜你是不是說完，而是把聲學特征和語義狀態(tài)一起納入判斷。

也就是說，它不僅在聽你有沒有停，還在判斷你為什么停。這就是為什么全雙工語音最關鍵的體驗，并不只是「更快」，而是「更懂分寸」。

場景三：飛花令快問快答，逼它「秒回」

接下來，上一個更硬核的「極限挑戰(zhàn)」——玩飛花令，試試豆包反應有多快？

「帶『月』字的詩句，我先來：床前明月光，疑是地上霜」。

「舉頭望明月，低頭思故鄉(xiāng)」——幾乎是話音剛落，下一句就精準空降

我：小時不識月，呼作白玉盤

AI：明月松間照，清泉石上流

我：明月幾時有，把酒問青天

AI：月落烏啼霜滿天，江楓漁火對愁眠

不得不說，這種對答如流、零延遲感的體驗非常驚艷。

官方測試稱，全雙工相比半雙工時延降低約250ms，實際體感就是「它在等我說完的那一刻，已經(jīng)在準備回答了」。

有趣的是，當我嘗試用它剛才生成的「明月松間照」進行「套娃反擊」時，豆包秒回提醒。

這種強大的上下文記憶與邏輯一致性，讓對話顯得更有「人情味」。

自動播放

場景四：說到一半喊停

最戳人的，是下面這個細節(jié)。

豆包正在長篇大論地給我介紹杭州景點，我突然來一句：「等一下，我做個筆記」。

它瞬間收聲，沒有猶豫，并貼心地問道，「需要把剛才推薦的地方和特色重復一遍嗎」？

緊接著，豆包繼續(xù)接著之前的話題——「西湖游船」，上下文自然統(tǒng)一。

這種絲滑的「被打斷—收聲—等待—繼續(xù)」閉環(huán)，過去你只能在和真人朋友打電話時體驗到。

自動播放

Seeduplex憑什么做到「邊聽邊說」？

驚艷實測之外，更值得追問的是，Seeduplex究竟是怎么做到的？

過去的語音助手，本質上是半雙工（Half-Duplex）——你說一句，它聽；它說一句，你聽。

就像老式對講機，同一時刻只能有一個人在「頻道」上。

這種模式天然帶來三個硬傷：

必須等你完全說完，才能開始處理（所以總覺得它反應慢）；

一旦它開始說話，就聽不見你（所以打斷它特別費勁）；

沒法感知背景（所以容易把別人講話誤當成指令）。

而全雙工（Full-Duplex），就是打電話的模式——你和它可以同時說、同時聽，誰該讓誰、誰該接話，全靠「對話節(jié)奏感」自然流轉。

聽起來簡單？但做起來難如登天。

因為它要求模型在每一個毫秒都同時干三件事：聽用戶、想自己、決定要不要開口。

字節(jié)Seed團隊這次，把「全雙工」最難啃的兩塊骨頭都啃下來了。

第一塊：精準抗干擾

模型具備持續(xù)的「傾聽」能力，能解析聲學環(huán)境，主動忽略背景噪音和無關對話。

復雜場景下，誤回復率和誤打斷率比半雙工模型減少了一半。

這背后的技術內核是，模型不再是「語音轉文字再理解」的流水線，而是直接對原始音頻信號做特征提取，能在聲學層面就分辨出「哪句是沖我來的」。

第二塊：動態(tài)判停

模型聯(lián)合語音特征+語義特征，綜合判斷你「是說完了」還是「在思考」。

人和人對話時，我們靠什么判斷對方是不是講完了？

語調下沉、呼吸節(jié)奏、用詞的完成度……這些都是人類下意識在處理的信號。

Seeduplex把這些信號原生內化進了模型訓練里，所以搶話比例相對下降了40%。

工程上，他們解決了什么硬骨頭？

光有模型還不夠。

要把全雙工塞進豆包App，扛住上億用戶的并發(fā)，工程上的挑戰(zhàn)比模型本身還要硬核。

字節(jié)團隊這次重點攻克的是幾件事：

模型框架重構：拋棄了傳統(tǒng)「ASR→LLM→TTS」的三段式拼接，構建貼合語音實時對話原生特性的端到端架構，讓模型直接從數(shù)據(jù)里學語音和語義的一體化表達；

訓練體系升級：海量語音數(shù)據(jù)預訓練 + 多任務后訓練，把「對話智能、超低延遲、節(jié)奏控制、抗干擾、指向性理解」這五項能力協(xié)同優(yōu)化——任何一項掉鏈子，體驗就崩；

推理性能極致壓榨：用投機采樣、量化等手段，在成本和延遲之間找平衡點，這是能「全量上線」的前提；

服務穩(wěn)定性兜底：重點解決了收音卡頓、播報卡頓這些「工程臟活」，確保大流量下不翻車。

一句話：Seeduplex不是一個Demo，它是一套從模型到工程全鏈路打通的工業(yè)級系統(tǒng)。

刷新SOTA

不僅如此，在多個橫向對比實測中，也印證了我們的體感。

相較于豆包App之前用的半雙工對話框架，Seeduplex的整體交互體驗跨越式提升——

判停MOS分提高了8%，對話流暢度MOS分更是大幅提升12%。

在其他核心的指標上，Seeduplex的表現(xiàn)堪稱驚艷。

判停延遲降低了約250ms，同時復雜場景下AI搶話比例相對減少40%；

在響應準確率更高的前提下，打斷響應延遲進一步縮短約300ms；

復雜聲學干擾場景下，誤回復率和誤打斷率降低一半。

橫向對比上，Seeduplex不只是贏了上一代，與行業(yè)主流App語音通話功能對比，判停、打斷、對話流暢度三項核心指標均領先。

而最讓人玩味兒的，是團隊在「人人對話」基準上的一次測試，看人機對話到底相對真人聊天到了什么程度。

結果，頗有戲劇性——

在響應打斷上，真人有時反應相對滯后，Seeduplex表現(xiàn)則更穩(wěn)定；

在整體對話流暢度上，與真人仍有一定差距。

綜合來看，真人表現(xiàn)還是更勝一籌，但Seeduplex 讓語音交互離真正自然、流暢的類人對話又近了一步。

Seeduplex站在了哪里？

如果把整個語音大模型行業(yè)拉遠一點看，你會發(fā)現(xiàn)一條很清晰的演進路線。

第一階段，是級聯(lián)時代。

ASR、LLM、TTS 各干各的，能用，但不自然。

第二階段，是端到端實時語音時代。

OpenAI的GPT-4o、Realtime API，谷歌的Gemini Live / Live API，都在把低時延、原生語音理解、更自然的實時響應推到主舞臺上。

第三階段，才是現(xiàn)在真正開始激烈競爭的地方：原生全雙工。

也就是不再滿足于「你說完我再答」，而是開始解決更接近真人交流核心的問題：

我什么時候該插話？什么時候該等待？誰是在對我說？背景里那句話要不要理？你這一下停頓，是結束了，還是在思考？你打斷我時，我能不能立刻收住，而不是把剩下半句硬念完？

全雙工對話的關鍵，不只是生成內容，而是同步性，是時間感，是對真實世界對話節(jié)拍的建模。

從這個角度看，Seeduplex的價值就非常清楚了。

它不是在和「有沒有語音模式」競爭。那個階段已經(jīng)過去了。

它是在爭奪下一件更本質的東西：誰能先把語音交互從「回合制問答」，推進到「實時自然交流」。

為什么這件事值得產(chǎn)業(yè)側認真看？

當AI學會「邊聽邊說」之后，受影響的絕不只是聊天App。

車載是最直接的。

開車時你不可能像發(fā)指令給機器人一樣，規(guī)規(guī)矩矩說完整句子再等它回應。

你需要的是一種能在復雜聲學環(huán)境里穩(wěn)住主線、又能快速切換狀態(tài)的助手。

教育也會變。

口語練習、面試模擬、陪練輔導、課堂互動，這些場景最怕的就是「假交流」。

一旦模型能理解猶豫、等待思考、保持節(jié)奏，整個陪練體驗會從「語音播放器」升級成「互動對象」。

客服與企業(yè)服務更不用說。

真正高價值的語音系統(tǒng)，不是誰答得最長，而是誰在多人、噪聲、插話、情緒波動中，依然能穩(wěn)住對話。

所以，Seeduplex的產(chǎn)業(yè)意義，不只是讓豆包更好用，而是把一個過去常被當成語音實驗秀場的方向，真正往車載、硬件、教育、客服、會議、陪伴這些高頻真實場景推了一步。

語音交互的「GPT-3.5時刻」

寫到這里，拋一個稍微大膽的判斷。

Seeduplex的全量上線，可能就是語音交互領域的「GPT-3.5時刻」。

為什么這么說？

GPT-3.5之所以被記住，不是因為它最強，而是因為它第一次讓普通人感受到「和AI對話是有用的」。

從那一刻起，大模型從極客玩具變成了大眾工具。

而Seeduplex做的事情類似——它第一次讓普通人感受到「和AI說話是自然的」。

當語音交互的機械感被徹底磨平，真正的應用爆發(fā)才剛剛開始。

更深一層，全雙工的本質，不是「說話快了一點」，而是AI第一次有了「對話流控制能力」——它知道什么時候該聽、什么時候該說、什么時候該停、什么時候該等。

這種能力，是AI從「工具」走向「伙伴」的必經(jīng)之路。

當AI終于學會「像人一樣聽和說」，它離「像人一樣思考和行動」，也就只差臨門一腳了。

寫到最后，我又點開豆包，跟它說了句：「今天聊得挺爽的，謝啦。」

它停頓了半秒——那種恰到好處的、像人一樣的半秒——然后說：「不客氣，隨時找我。」

那一刻我突然意識到，有些技術革命，是在你沒察覺的情況下發(fā)生的。

等你回過神，世界已經(jīng)變了。

更多>同類資訊

字節(jié)跳動推出全雙工語音大模型Seeduplex

04-09

華為終端業(yè)務兩大核心高管余承東、何剛入駐小紅書平臺

04-09

脈脈發(fā)布80家“隱形大廠”：平均月薪最高近7萬

04-09

智元發(fā)布GO-2具身基座大模型讓機器人真正“知行合一”

04-09

Meta首個作品來了：Alexandr Wang 推出閉源模型

04-09

小米YU7 GT高性能SUV紐北賽道測試圖再曝，頂配1526馬力

04-09

阿里云百煉正式上線“記憶庫”功能

04-09

Anthropic發(fā)布Managed Agents，這支硅谷團隊押對賭注

04-09

三星顯示2026H2向蘋果、谷歌供應最新OLED

04-09

衷華腦機智能仿生手首次亮相，能靠“意念”操控

04-09

吉利銀河M7開啟預售：綜合續(xù)航1730公里，13.98萬元起

04-09

特斯拉Cybercab量產(chǎn)啟動：60臺實車現(xiàn)身得州工廠，配備方向盤

04-09

馬斯克：特斯拉Model S/X庫存僅剩數(shù)百臺

04-09

蘋果可折疊iPhone顯示屏全靠三星？消息稱已同意獨家采購3年

04-09

小米18 Pro/Pro Max保留背屏：升級AI智窗交互形態(tài)

04-09

點擊查看更多 +

全站最新

PearlError-包含視頻過濾

大曝光！國家隊買入這些ETF

Meta殺回大模型主桌！扎克伯格打響AI翻身仗？

極光發(fā)布Modellix.ai：打通全球頂尖模型，重構下一代AI媒體生成

龍虎榜丨東山精密兩連板創(chuàng)新高，深股通凈買入2.92億元，一機構凈買入2.38億元

美股異動丨優(yōu)信盤前漲5% 機構料其CY2025-2027E收入高增長

熱門內容

本欄最新

PearlError-包含視頻過濾

推理經(jīng)濟崛起：國產(chǎn)芯片迎新機遇，AI產(chǎn)業(yè)利潤分配格局重塑

SCRM深度賦能：解鎖電商私域流量高效管理新路徑與增長策略

京東開源JoyAI-Image-Edit圖像模型：攻克空間難題，賦能多元領域應用

B站上線播放頁暫停廣告：商業(yè)化嘗試再引熱議，理想現(xiàn)實如何平衡？

字節(jié)跳動Seeduplex全雙工語音模型上線，豆包通話實現(xiàn)邊聽邊講更自然

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

豆包成精了！告別機械感，上億人手機上線