OpenAI 近日面向全球開發(fā)者推出了兩項(xiàng)關(guān)鍵 API 更新,旨在大幅提升 AI 智能體在語(yǔ)音交互與復(fù)雜任務(wù)流中的性能表現(xiàn)。
在模型層面,全新的實(shí)時(shí)模型 gpt-realtime-1.5 及其配套音頻模型正式登場(chǎng),其核心目標(biāo)是提高語(yǔ)音命令的可靠性。根據(jù) OpenAI 內(nèi)部測(cè)試數(shù)據(jù),新模型在處理數(shù)字和字母的轉(zhuǎn)錄準(zhǔn)確率上提升了約 10%,邏輯音頻任務(wù)準(zhǔn)確率提高了 5%,而指令執(zhí)行的準(zhǔn)確率也相應(yīng)提升了 7%,有效解決了 AI 在聽取關(guān)鍵短語(yǔ)或執(zhí)行復(fù)雜語(yǔ)音指令時(shí)的偏差問題。
在架構(gòu)層面,Responses API 現(xiàn)已支持 WebSocket 協(xié)議,這標(biāo)志著 AI 通信模式的重大變革。與以往每次請(qǐng)求都必須重新傳輸完整上下文的模式不同,WebSocket 允許開發(fā)者建立持久連接,系統(tǒng)僅在產(chǎn)生新數(shù)據(jù)時(shí)進(jìn)行增量發(fā)送。
OpenAI 指出,這一改進(jìn)對(duì)于需要頻繁調(diào)用大量工具的復(fù)雜 AI 代理尤為關(guān)鍵,能夠?qū)⑵溥\(yùn)行速度直接提升 20% 到40%。這兩項(xiàng)更新不僅讓 AI 的“聽力”更敏銳,更讓其“行動(dòng)”效率邁向了全新的臺(tái)階。











