谷歌近日在旗下擁有超7.5億月活躍用戶的Gemini應用中,正式上線了AI音樂生成功能。用戶只需輸入一段文字描述或上傳一張照片,短短數秒內即可獲得一首包含人聲、歌詞及AI生成封面的30秒完整歌曲,純器樂創作同樣支持。這一功能背后依托的是DeepMind最新研發的Lyria 3音樂生成模型,其訓練數據規模超過200萬首曲目,音頻位深達24-bit,輸出音質甚至超越主流流媒體平臺標準。
與前代模型相比,Lyria 3實現了多項技術突破。用戶無需手動編寫歌詞,模型可根據提示詞自動生成;對音樂風格、人聲類型、節拍速度等參數的控制精度顯著提升;輸出音頻為48kHz立體聲,人聲自然度與歌詞咬字清晰度大幅優化。該模型支持通過視覺內容生成音樂——用戶上傳照片或視頻后,Gemini可分析畫面情緒并創作匹配的歌曲,封面則由谷歌圖像生成模型Nano Banana自動完成。
目前,該功能以Beta測試形式面向全球18歲以上用戶開放,支持英語、德語、西班牙語等八種語言,桌面端已率先上線,移動端將于近期推送。谷歌AI高級訂閱用戶將獲得更高使用額度。與此同時,Lyria 3被整合至YouTube Dream Track功能,全球創作者均可為Shorts短視頻生成背景音樂,此前該功能僅限美國地區。
在版權爭議持續發酵的AI音樂領域,谷歌采取了一系列謹慎措施。官方公告強調,Lyria 3的設計目標是“助力原創表達,而非模仿現有藝術家”。若用戶提示詞中提及特定藝術家,模型僅會以其風格或情緒為靈感創作相似作品,而非復制其聲音。訓練過程中,谷歌嚴格遵循版權協議與合作伙伴要求,并設置過濾器比對輸出內容與已有作品。所有生成音樂均嵌入SynthID水印,用戶還可通過Gemini的音頻鑒別功能,上傳文件檢測是否為谷歌AI創作。
這一舉措標志著AI音樂競爭從技術模型層面升級至平臺生態層面。以Suno為代表的初創公司雖在2024年11月完成2.5億美元融資,并推出虛擬音頻工作站等專業工具,但其用戶規模與Gemini的7.5億月活存在量級差距。技術媒體Tom's Guide編輯體驗后表示,她將丈夫的待辦清單轉化為朋克搖滾歌曲并通過短信分享,這種場景或許正是谷歌的目標——讓音樂生成融入日常溝通,而非局限于專業創作場景。
盡管Lyria 3仍存在30秒時長限制、Beta階段功能粗糙等問題,且版權爭議尚未完全平息,但谷歌選擇此時將其推向海量用戶,釋放出明確信號:AI音樂生成已從技術探索進入規模化應用階段。當每個人都能通過口袋里的設備隨時創作音樂,或許改變的不僅是音樂生產方式,更是人類與音樂互動的本質。











