編輯:艾倫
谷歌在 7.5 億月活的 Gemini 中上線了 AI 音樂生成功能,輸入一句話或一張照片,幾秒就能得到一首帶人聲和歌詞的完整歌曲。背后是 DeepMind 最新的 Lyria 3 模型,訓(xùn)練數(shù)據(jù)超 200 萬首曲目。對 Suno 等 AI 音樂創(chuàng)業(yè)公司而言,競爭從此不再只是比模型,更是要比入口。
昨天,谷歌在 Gemini App 中上線了 AI 音樂生成功能。
用戶輸入一段文字描述,或者上傳一張照片,幾秒鐘內(nèi)就能得到一首 30 秒的完整歌曲,帶人聲、帶歌詞、帶 AI 生成的封面。純器樂當(dāng)然也是支持的。
驅(qū)動這個功能的是 DeepMind 最新的音樂生成模型 Lyria 3。
谷歌對這項(xiàng)功能的定位,不是取代音樂人,而是讓普通人獲得一種全新的自我表達(dá)方式。
做 AI 音樂生成的公司不少,但把它直接塞進(jìn)一個擁有超過 7.5 億月活用戶的超級應(yīng)用里,谷歌是頭一個。
「30 秒」背后的技術(shù)躍遷
從 2023 年發(fā)布初代 Lyria 算起,這已經(jīng)是谷歌在音樂生成領(lǐng)域的第三代模型。
相比前代,Lyria 3 有幾個明顯的進(jìn)步。
過去用戶需要自己寫歌詞輸入模型,現(xiàn)在 Lyria 3 可以根據(jù)提示詞自動生成歌詞。
用戶對風(fēng)格、人聲類型、節(jié)拍速度等元素的控制也更精細(xì)了。
根據(jù) DeepMind 官方推文,Lyria 3 輸出 48kHz 立體聲音頻,人聲表現(xiàn)更自然,歌詞的咬字清晰度也有了明顯提升。
據(jù)數(shù)字音樂媒體 Digital Music News 報(bào)道,Lyria 3 的訓(xùn)練數(shù)據(jù)規(guī)模從 Lyria 2 的約 50 萬首曲目擴(kuò)展到了超過 200 萬首,音頻位深從此前版本升級到了 24-bit。
這意味著它在音質(zhì)維度上甚至超過了 YouTube Music 等主流流媒體平臺的標(biāo)準(zhǔn)。
除了文本生成音樂,用戶還可以上傳照片或視頻,讓 Gemini 根據(jù)視覺內(nèi)容的情緒來作曲配詞。
比如上傳一張徒步的照片,Gemini 就能創(chuàng)作一首與之匹配的歌曲。
自動播放封面則由谷歌的圖像生成模型 Nano Banana 自動完成。
功能目前以 Beta 形式向全球 18 歲以上用戶開放,支持英語、德語、西班牙語、法語、印地語、日語、韓語和葡萄牙語,桌面端已率先上線,移動端將在未來幾天內(nèi)陸續(xù)推送。
谷歌 AI Plus、Pro 和 Ultra 訂閱用戶將享有更高的使用額度。
與此同時,Lyria 3 也被整合進(jìn)了 YouTube 的 Dream Track 功能,幫助創(chuàng)作者為 Shorts 短視頻生成背景音樂。這項(xiàng)功能此前僅限美國地區(qū),此次正式面向全球創(chuàng)作者開放。
版權(quán)這張牌
谷歌打得很小心
AI 音樂生成領(lǐng)域的版權(quán)糾紛從未停歇。
2024 年夏天,環(huán)球音樂、索尼音樂和華納音樂聯(lián)手對 AI 音樂初創(chuàng)公司 Suno 和 Udio 提起了總金額達(dá) 5 億美元的版權(quán)侵權(quán)訴訟。
到 2025 年底,Suno 與華納達(dá)成和解并獲得授權(quán),Udio 也分別與環(huán)球和華納簽署了協(xié)議。
整個行業(yè)正在從對抗走向合作,但緊張關(guān)系遠(yuǎn)未消散。
在這個背景下,谷歌的措辭格外謹(jǐn)慎。
官方公告強(qiáng)調(diào) Lyria 3 的設(shè)計(jì)目標(biāo)是「原創(chuàng)表達(dá),而非模仿現(xiàn)有藝術(shù)家」。
如果用戶在提示詞中提到某位具體藝術(shù)家的名字,Gemini 只會將其作為寬泛的創(chuàng)作靈感,生成風(fēng)格或情緒相似的作品,而非模仿該藝術(shù)家的聲音。
谷歌還表示在訓(xùn)練過程中「非常注意版權(quán)和合作伙伴協(xié)議」,并設(shè)置了過濾器來比對輸出內(nèi)容與已有作品。
在內(nèi)容標(biāo)識層面,所有通過 Gemini 生成的音樂都會嵌入 SynthID 水印。
更值得關(guān)注的是,Gemini 現(xiàn)在還新增了音頻鑒別功能——用戶可以上傳一段音頻文件,詢問它是否由谷歌AI 生成,Gemini 會檢測 SynthID 標(biāo)記并結(jié)合自身推理給出判斷。
這是繼圖片和視頻鑒別之后,SynthID 覆蓋的第三種媒體類型。
當(dāng)音樂生成變成一場平臺戰(zhàn)爭
如果說 Suno 和 Udio 代表了 AI 音樂的創(chuàng)業(yè)浪潮,谷歌此舉則標(biāo)志著這場競賽正式升級為平臺級別的角力。
Suno 在 2024 年 11 月完成了 2.5 億美元融資,其付費(fèi)版本已經(jīng)提供了虛擬音頻工作站等專業(yè)編輯功能。
但 Suno 的月活用戶量級與 Gemini 的 7.5 億相比,根本不在同一個數(shù)量級。
Tom's Guide 的編輯在體驗(yàn)后寫道,她把丈夫的待辦事項(xiàng)清單變成了一首朋克搖滾歌曲,然后通過短信發(fā)了出去。
這種場景可能正是谷歌想要的:音樂生成的殺手級應(yīng)用也許并不在錄音棚里,而是藏在日常生活的每一條消息、每一次分享中。
30 秒的長度限制、Beta 階段的粗糙感、版權(quán)爭議的暗涌——Lyria 3 顯然還遠(yuǎn)談不上完美。
但谷歌選擇在這個時間點(diǎn)把它推向 7.5 億用戶面前,傳遞的信號已經(jīng)足夠清晰:AI 音樂生成這件事,它不打算再等了。
當(dāng)每個人的口袋里都裝著一個作曲家的時候,改變的或許不是音樂本身,而是我們與音樂之間的關(guān)系。








