隨著人工智慧技術的飛速發展,Google Gemini 的能力已不再侷限於文字對話與圖像生成。近期,Google DeepMind 正式將其最先進的音樂生成模型 Lyria 3 導入 Gemini 應用程式中,開啟了「文字轉音樂」的全新可能。這款模型目前正處於 Beta 測試階段,旨在讓使用者透過簡單的指令或上傳圖片,就能在短短幾秒鐘內創作出長達 30 秒、具備專業質感的音樂片段。無論是想要一段充滿懷舊感的非洲節奏(Afrobeat),還是為寵物影片配上詼諧的 R&B 旋律,Lyria 3 都能精準捕捉使用者的意圖,將抽象的情感轉化為動聽的音符。
Lyria 3 的核心優勢在於其對音樂結構的深刻理解與高度的可控性。相較於以往的技術,它不僅能自動根據提示詞編寫歌詞,還容許使用者針對曲風、人聲特質及節奏快慢進行細微調整。此外,為了確保生成內容的負責任與可追溯性,所有透過 Gemini 產出的音軌都會嵌入 SynthID 隱形浮水印,這是一種肉眼與肉耳無法察覺的技術,能有效識別 AI 生成內容。這項工具的推出,並非為了取代人類創作者,而是作為靈感的觸媒,讓每個人都能輕鬆地為日常生活配上專屬的背景音樂,享受科技與藝術交織的樂趣。

▲ 進入 Gemini 介面後,系統會主動跳出「音樂生成功能登場」的全新提示。這標誌著 Lyria 3 模型正式整合進對話流程中。點擊醒目的「立即體驗」按鈕,即可開啟音樂創作功能,讓使用者能從文字或圖片出發,探索無限的旋律可能性。

▲ 在生成介面中,系統提供了多種曲風模組供使用者參考。在此範例中,我選擇了「電影氛圍」模板,並自行輸入了「壯闊、女聲、史詩」等核心關鍵字。這種直覺的操作方式,讓即便不具備樂理基礎的使用者,也能清晰定義出想要的音樂情緒。點右下角紙飛機圖示送出指令。

▲ 送出需求後,Gemini 會進入運算狀態,畫面上會顯示「Loading Lyria...」以及正在分析個人化約束條件的進度。這段過程展現了 AI 正在後端快速媒合樂器編制、調性與使用者提供的關鍵字,確保生成的每一秒音軌都符合「史詩感」的設定。

▲ 創作完成後,系統會生成一段約 30 秒的高品質樂曲,並附帶詳細的文字賞析。這段「史詩女聲管弦樂」作品以渾厚的低音弦樂為基底,交織著英勇的旋律與空靈的女聲元素,但實際上卻沒有出現女聲,這可能就是 AI 不完美的地方吧!成果一完成!

▲ 我後續嘗試要求生成更長的版本(如 3 分鐘),Gemini 會誠實說明目前的技術限制。雖然目前 Beta 版一次生成的長度有限,但 AI 仍會嘗試製作一個新的片段,並建議使用者可以透過循環播放或後製轉場來達成需求。這次的成果二終於出現女聲了!

▲ 生成後的作品支援兩種匯出方式,使用者點擊隱藏的下載按鈕後(游標要移入作品區域內,最右上的按鈕),可以選擇下載「附帶封面圖片的影片檔案」以便直接分享至社群平台,或是選擇純粹的「MP3 音訊軌」進行專業剪輯使用。這種靈活的輸出選項,大大提升了 AI 音樂的實用價值。
《上一篇》Z-Image Turbo:繪製二次元動漫角色拿立體數字 Q 版圖指南 









留言區 / Comments
萌芽論壇