在人工智能技術持續突破的背景下,語音合成領域迎來一項重要創新成果。科大訊飛股份有限公司近日宣布獲得一項名為“語音合成方法、裝置、電子設備及存儲介質”的發明專利授權,該專利通過引入語氣描述文本的聯合編碼機制,為語音合成技術開辟了新的發展路徑。這項突破性技術通過將自然語言形式的語氣指令融入模型訓練,使系統能夠精準捕捉并還原語音中的情感、語調等非語義特征,顯著提升了合成語音的擬人化程度。
專利技術文檔顯示,該創新方案突破了傳統語音合成僅依賴文本內容的局限,通過構建雙通道編碼架構,將語氣描述文本與原始文本進行深度融合。這種設計使系統能夠同時解析語義信息和情感指令,在生成語音時實現語速、音調、節奏的動態調整。例如在教育場景中,系統可根據學習者的情緒反饋自動切換鼓勵或嚴肅的語氣,在客服場景中則能通過語調變化傳遞專業或親和的服務態度。
盡管科大訊飛2025年度專利授權總量較上年下降35.63%至56項,但研發投入持續保持增長態勢。公開數據顯示,該公司上半年研發支出達20.68億元,同比增長6.99%,研發投入強度維持在行業領先水平。這種"減量提質"的專利策略,反映出企業從追求數量向聚焦核心技術的戰略轉型。目前,科大訊飛已構建起涵蓋4041項商標、6001項專利、1683項著作權的立體化知識產權體系。
在應用生態建設方面,該技術已形成多場景落地能力。智能助手領域,系統可根據用戶歷史交互數據建立個性化語音模型;娛樂產業中,語音合成技術為虛擬偶像提供自然流暢的對話能力;醫療場景下,系統通過調整語氣緩解患者焦慮情緒。據統計,科大訊飛參與的招投標項目累計達7241次,對外投資企業133家,形成覆蓋技術研發、場景應用、產業協同的完整生態鏈。
行業分析師指出,這項專利解決了語音合成領域長期存在的情感表達生硬、場景適配性差等痛點。通過將語氣控制從固定參數升級為自然語言指令,系統可適配更多元化的應用場景。特別是在需要高度情感交互的領域,如心理健康輔導、老年關懷服務等,該技術展現出顯著的應用價值。隨著5G和物聯網設備的普及,語音交互正成為人機交互的主要形態,這類技術創新將持續推動行業邊界拓展。












