岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Gemini 3.1毫秒級接話,實時Agent時代來了

   時間:2026-03-28 20:05:12 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

編輯:元宇

語音AI最煩人的一句話,可能終于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人與人說話那樣響應」的體驗:不僅更快、更自然,連在交通聲、電視聲這樣的真實噪音里,也更能聽清你在說什么。

剛剛,谷歌把語音AI最煩人的一句話狠狠干掉了:「請再說一次。」

這次谷歌新發布的 Gemini 3.1 Flash Live,直接瞄準了現實生活中最亂、最吵的那些場景。

https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

更重要的是,它不只是「聽」,它還能看,還能調用工具,還能守住設定邊界。

谷歌稱,這是在延遲、可靠性和更自然的對話表現上的一次躍遷式提升。

你說話的速度

就是它思考的速度

谷歌官方博客中提到,實時交互里,每一毫秒的延遲,都會破壞用戶期待的自然對話流。

因此,Gemini 3.1 Flash Live的一個目標,就是把語音Agent推進到「接近對話本身速度的響應」。

因為現實體驗中,語音AI最勸退人的不是答錯,而是那種你已經張嘴說完,它還在后臺轉圈帶來的「斷片」感。

谷歌這次改進的方向,不是某一個點,而是語音Agent最容易掉鏈子的整條實時交互系統:

一邊增強對音高、語速、重音和意圖的識別能力;一邊強化復雜系統指令遵循,讓Agent即便在對話突然轉向時,也能守住既定邊界、不輕易跑偏。

更關鍵的是,谷歌還專門強調了它在真實噪音環境中的任務完成率提升:

面對交通聲、電視聲等背景干擾,模型能更有效地區分有效語音與環境噪聲,在實時對話中更穩定地觸發工具、返回信息。

并且,相比2.5 Flash Native Audio,新模型在這些方面都有明確提升。

AI終于走出實驗室

想象在一個嘈雜的咖啡廳:

隔壁兩個人正在吵架,你一邊盯著明天的航班,一邊對手機說:幫我改簽到上午。

結果你說3遍,它仍是回答你3次:「抱歉,請再說一次。」

這樣的情景是不是很熟悉?

語音AI這些年最大的問題,并不是它「能不能聊天」,而是它能不能在你需要它的時候和它聊天。

這些需要和它聊天的場景,往往是在地鐵站、車上、開著電視的客廳、菜市場這些噪聲環境,所以,谷歌這次把「噪聲」放到了非常核心的位置。

新模型顯著提升了在嘈雜、真實環境中的任務完成率,能更準確地區分有效語音和交通聲、電視聲等環境噪音。

這些改進,讓語音AI能夠更適應真實場景的需要。

設計師、老人、玩家

三個人的AI已經不一樣了

谷歌官方列舉了Gemini 3.1 Flash Live在設計、陪伴和游戲三個代表性的案例。

設計師

語音第一次變成創作工具

自動播放

谷歌官方稱,借助Gemini Live API,用戶現在可以直接用語音做創意設計,AI不僅能聽,還能看到你的畫布和當前選中的界面,然后給出設計點評、生成變體。

小功能背后,設計工作流也在改變。

以前你跟設計工具的關系,是手點。后來是手點+文字框。現在開始變成:你一邊看畫布,一邊開口,AI一邊理解、一邊改。

這意味著設計師不再只是「操作軟件」,而是在「調度一個實時搭檔」。

你不用停下來把腦子里的感覺翻譯成一大段prompt,而可以直接說:這個卡片太滿了、留白拉開、主按鈕再有互動性一點、這個版本偏保守,給我三個更大膽的……

這正是語音在創作場景里的真正價值,它將大大縮短靈感到執行之間的距離。

在Stitch這種場景里,語音已經不是輸入法了,而成了創作指揮棒。

老人

陪伴終于不是假聊天了

第二個案例,是Hey Ato。

自動播放

這是一個面向老年人的AI陪伴設備。

谷歌給出的重點是,Ato利用Gemini 3.1 Flash Live的多種語言支持能力,把日常對話變成真正的聯系。

「AI陪伴」過去最大的問題不是功能少,而是太假、太模板化,而老年場景,對「實時感」「打斷恢復」「語言自然度」的要求,遠比年輕人想象得更高。

對很多老人來說,他們不會有耐心和能力去調參數,也不會切來切去看屏幕。

Gemini 3.1 Flash Live的多語言、低延遲和更自然對話,在這樣的場景中成了一個入門級的能力。

當AI設備真的能用父母更熟悉的母語,穩定地接住日常閑聊時,它才能真正讓「人機交互」切入「陪伴關系」這一高挑戰場景。

玩家

游戲里的NPC終于不像木頭人了

第三個場景最有戲劇感。

自動播放

它來自Weekend團隊的RPG游戲Wit’s End。

谷歌官方說,他們把Gemini 3.1 Flash Live的「強角色塑造能力」和「類人的表達方式」結合起來,給Game Master加上了獨特的戲劇風格。

游戲也是實時語音AI最危險、也最容易炸場的場景,因為玩家對「卡頓」和「出戲」的容忍度極低,這也是為什么游戲行業會特別敏感地擁抱這類能力。

他們不需要一個「會回答問題的模型」,而是需要一個「能演、能接、能控場」的實時角色。

從Stitch到Ato,再到Wit’s End,谷歌Gemini 3.1 Flash Live其實都是在印證這樣一個變化:

語音+視覺Agent,正在同時滲透進創造、陪伴、娛樂這三種最貼近個體生活的場景。

實時AI競賽的戰火

正在燒向App

對于大廠來說,最值得警惕的,往往不是它們某個單點功能有多強,而在于它什么時候開始變成基礎能力。

Gemini 3.1 Flash Live這次最讓競爭對手感到危險的,也正是在這里。

自3月26日起,Gemini 3.1 Flash Live已通過Gemini API和Google AI Studio提供,當前為預覽版,開發者可通過Live API集成。

官方文檔中特別強調了tool use、session management、ephemeral tokens等關鍵能力,這些都直接對應實時Agent落地時最核心的工程問題。

https://ai.google.dev/gemini-api/docs/live-api/get-started-sdk

按照官方文檔,Gemini Live API基于有狀態WebSocket連接,支持連續的音頻、圖片和文本流輸入,并以低延遲方式返回語音結果。

輸入側可接收16kHz、16-bit PCM音頻,輸出側則返回24kHz、16-bit PCM音頻。

換句話說,它不是傳統那種「說一句、等一次結果」的調用方式,而更像一個持續在線的實時交互回路。

文檔還明確列出了多語言支持、用戶隨時打斷、函數調用與Google Search等工具接入、輸入輸出轉寫、主動音頻控制等能力。

對開發者來說,這些能力組合起來,意味著它已經不再只是一個會語音對話的模型,而是一個可直接接入應用工作流的實時Agent接口。

Google AI for Developers的版本說明也確認了模型名為gemini-3.1-flash-live-preview。

由此看,這次更新不再只是谷歌自家產品里的一個新功能,而是一個可被復制、可被集成、可被規模化嵌入的能力層。

不僅如此,谷歌還在博客中專門提到了兩類合作伙伴能力:WebRTC擴展,以及全球邊緣路由。

這說明谷歌考慮的已經不只是模型演示效果,而是更接近真實生產部署的要求。

視頻流、電話場景、跨區域低延遲分發,這些都不是「實驗室demo」會提前考慮的東西。

這次升級,官方不只開了API,還給了Live API文檔、示例,以及GenAI SDK代碼入口。

也就是說,下一波實時AI應用的爆發,不一定從大廠內部開始,很可能是從一批動作快的開發者和創業團隊開始。

很多人還在把「實時語音助手」理解成一個獨立產品,但未來真正可能發生的,并不是你去下載一個新的AI App,而是你原來每天就在用的App,某天突然多了一個按鈕。

它可以與你實時交互,會看、會聽、能做事,那時整個交互范式可能已經開始變化。

語音AI真正的敵人

也許不是技術

谷歌官方這次推出的是預覽版(preview),即Gemini 3.1 Flash Live現在仍處在預覽階段。

官方文檔已經提示了兩種典型接入模式:要么由后端中轉,與Live API進行服務器到服務器通信;要么由前端直接建立WebSocket連接,但在生產環境里推薦改用臨時Token,而不是直接暴露標準API Key。

當然,這套能力距離「無摩擦落地」還有一段距離。

因為,實時語音Agent并不只是模型問題,它還疊加了持續連接、音視頻流傳輸、狀態保持和安全控制等工程約束。

也就是說,Gemini 3.1 Flash Live雖然已經把「實時多模態交互」這層能力打開了,但要真正把它打磨成穩定產品,還需要回答以下現實性的問題:

成本會不會壓垮高頻使用?長時對話穩定性到底怎么樣?多人環境下的說話權分離能做到多穩?隱私、誤觸發、持續監聽的邊界怎么畫……

這些問題解決,實時語音Agent才有望真正成為「下一代入口」。

但至少這次Gemini 3.1 Flash Live發布讓我們看到:語音AI終于不那么像一個總在掉鏈子的笨助手了。

過去,人類用API調AI。接下來,AI會越來越頻繁地替你調用世界。

一旦響應速度追平人類開口的節奏,很多今天看起來還不成立的場景,明天就會突然成立。

比如,它能替你打電話、改簽、盯屏幕、陪父母聊天、打游戲……我們日常的耳機、手機、眼鏡也可能改變,我們經常使用的App也可能被重新定義。

那時,我們與機器溝通的習慣方式,可能真的是要改變了。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产精品久久久精品 | 华丽的外出在线观看 | 免费人成在线观看 | 国产另类精品 | 国产精品suv一区二区69 | 鲁大师2在线观看免费播放高清 | 尤物网站在线 | 天堂一区二区三区 | 在线视频一区二区 | 国产精品日韩一区二区 | 欧美a v在线| 亚洲自拍色| 一本在线免费视频 | 日韩中出在线 | 免费在线观看成人 | 青青草原伊人网 | 天天色天天色天天色 | www.久久 | 生猴子在线观看免费视频 | 成人精品在线视频 | 欧美精品在线视频观看 | 天天操天天操天天射 | 一区二区视频网站 | 精品免费一区二区 | 手机看片日韩av | 亚洲精品网站在线观看 | 国产综合网站 | 国产探花一区 | 久久一区精品 | 你懂的欧美 | 国产探花一区二区 | 国产午夜精品在线观看 | 神马久久网 | 日韩特一级 | 2019中文字幕在线视频 | 一级免费黄色片 | 伊人国产女 | 蜜桃网av | 国产精品理论在线 | 国产精品99在线观看 | 91九色网站|