據科技行業內部消息,OpenAI正秘密推進一項名為“BiDi”(取自“Bidirectional”縮寫)的音頻模型研發項目。該模型旨在突破現有語音交互的機械感,使人工智能與用戶的對話更接近人類自然交流模式。核心突破點在于實現雙向實時響應——當用戶中途插話或提出新觀點時,系統能夠動態調整回應內容,而非像傳統模型那樣被動等待完整語句輸入或中斷對話。
當前ChatGPT的語音功能采用輪次式交互設計:用戶需完整表達意圖后,系統才會解析內容并生成回復。這種模式在面對自然對話中的即時反饋時顯得笨拙——例如用戶用“明白”“確實”等短語回應時,模型常誤判為對話結束而停止輸出。更復雜的情況是,當用戶試圖在AI陳述過程中修正信息或轉換話題時,系統往往無法無縫銜接,導致交流體驗割裂。
BiDi模型的技術路徑與此截然不同。研發團隊通過持續分析音頻流中的聲學特征,構建了動態響應機制。當檢測到用戶語音中的停頓、語調變化或關鍵詞插入時,系統會立即激活上下文重評估模塊,在保持語義連貫性的前提下調整回應策略。這種設計使對話不再遵循固定的“輸入-處理-輸出”鏈條,而是形成類似人類交談的反饋循環。
盡管技術前景令人期待,但項目推進面臨顯著挑戰。測試數據顯示,BiDi原型在持續對話超過5分鐘后,會出現語義漂移或語音合成異常等問題。部分場景下,系統甚至會生成與上下文無關的回應片段。原計劃于2024年初發布的版本因此推遲,研發團隊正集中優化長對話穩定性與異常處理機制,最新時間表指向第二季度末。
OpenAI將語音交互視為擴大AI應用場景的關鍵入口。研究顯示,全球超過70%的用戶更傾向通過語音完成簡單指令,這一比例在移動場景下高達85%。BiDi模型若能實現預期效果,將顯著提升客服、教育、智能家居等領域的交互效率。特別是在多任務處理場景中,用戶可在對話中途隨時切換需求,系統需同步理解并調整服務流程,這對傳統語音系統構成技術跨越。
該模型在工具調用能力上的突破同樣值得關注。測試表明,BiDi可更精準地識別用戶語音中的隱含指令,例如在討論天氣時自然銜接至日程安排查詢,或在購物對話中無縫調用支付系統。這種跨應用協調能力,為未來語音交互設備的生態建設提供了技術基礎。
OpenAI的硬件戰略與語音模型研發形成協同效應。此前曝光的語音交互設備原型顯示,公司正探索將BiDi技術集成至便攜式終端,用戶可通過自然對話完成郵件撰寫、餐廳預訂等復雜操作。實時響應與中斷容忍能力被視為這類設備的核心競爭力,其技術成熟度將直接影響AI從“工具”向“助手”的角色轉型速度。











