隨著人工智慧技術的飛速發展,AI 生成音樂已經不再是新鮮事,但過去高品質的生成往往受限於付費的雲端訂閱服務。最近,開源界迎來了震撼性的進展 —— HeartMuLa 系列模型正式發布。這是一個擁有強大參數量的音樂大模型家族,不僅支援中、英、日、韓、西等多國語言的人聲歌詞生成,更透過其專有的 HeartCodec 技術,實現了極高保真度的音訊輸出。最重要的是,它是完全開源且免費的,這意味著創作者不再需要支付高額月費給 Suno 或 Udio 等平台,就能在自己的電腦上自由地創作專業級的樂曲,且擁有完整的商業使用權與隱私權。
對於熟悉 ComfyUI 的創作者來說,現在更有好消息。透過 benjiyaya 開發的 HeartMuLa_ComfyUI 擴充節點,我們可以直接在熟悉的節點式介面中整合這強大的音樂生成功能。這不僅大幅降低了本地部署的門檻,還讓音樂生成能與其他 AI 視覺工作流相結合。無論你是想為自己的影片創作獨一無二的背景音樂,還是想嘗試將文字靈感轉化為動聽的歌曲,這套方案都提供了極高的靈活性。本文將帶領大家從環境架設、模型下載到實際生成,一步步掌握這款 2026 年當前最強大的開源本地 AI 作曲工具。

▲ 首先開啟命令提示字元並進入 ComfyUI 的 custom_nodes 資料夾(路徑:ComfyUI\custom_nodes,可以由檔案總管位址列輸入「CMD」快速進入),使用 git clone https://github.com/benjiyaya/HeartMuLa_ComfyUI 指令將 HeartMuLa 的自定義節點倉庫複製到本地。接著輸入 cd ../ 回 ComfyUI 根目錄,並利用指令 .\.venv\Scripts\python.exe -m pip install -r custom_nodes\HeartMuLa_ComfyUI\requirements.txt 以 ComfyUI 內建虛擬環境的 pip 工具嘗試安裝 requirements.txt 中的基礎依賴套件,為後續的運算環境打好基礎。

▲ 接著需手動安裝關鍵的音訊處理庫。輸入指令 .\.venv\Scripts\python.exe -m pip install soundfile torchtune torchao 執行安裝 soundfile、torchtune 及 torchao 核心模組,這些套件對於模型在本地進行高效率推論與音訊轉碼至關重要,能確保生成過程不會因缺少模組而中斷。

▲ 環境配置完畢後,需下載模型權重檔。切換至 ComfyUI 的 models 目錄(路徑:ComfyUI\models),利用 Hugging Face CLI 指令集,分別下載 HeartMuLaGen 主模型、3B 版本權重、音訊編碼器以及歌詞轉錄模型。指令如下:
hf download HeartMuLa/HeartMuLaGen --local-dir ./HeartMuLa
hf download HeartMuLa/HeartMuLa-oss-3B --local-dir ./HeartMuLa/HeartMuLa-oss-3B
hf download HeartMuLa/HeartCodec-oss --local-dir ./HeartMuLa/HeartCodec-oss
hf download HeartMuLa/HeartTranscriptor-oss --local-dir ./HeartMuLa/HeartTranscriptor-oss
※ 這些權重檔總體積超過 20GB,下載時請確保硬體空間充足並保持網路連線穩定。

▲ 下載完成後請務必檢查檔案結構,確認在 models 目錄下已建立 HeartMuLa 資料夾,並包含主模型、編解碼器、設定檔及詞表等必要元件。正確的目錄結構是讓 ComfyUI 及客製化節點順利讀取並載入模型權重的關鍵,若資料夾層級錯誤將導致節點無法偵測到已安裝的模型。

▲ 開啟 ComfyUI 後,在節點選單搜尋「HeartMuLa」即可找到相關組件。生成歌曲要將 HeartMuLa Music Generator 節點新增至工作區,該節點整合了歌詞輸入、風格標籤、模型版本選擇及多種推論參數調校功能,是整個 AI 音樂生成流程的核心。

▲ 實際操作時,在歌詞欄位填入內容(支援多國語言,如圖中的日文),並在 tags 欄位輸入風格標籤(如鋼琴、空靈、女聲等)。設定好隨機種子與音訊最長長度等參數後點擊 Run 執行,上方會出現原生進度條,實時顯示模型正在進行繁重的 AI 推理與旋律合成任務。

▲ 生成完成後(此案例花費約 221 秒;我的設備是 RTX 5070 Ti 16 GB VRAM + 64 GB RAM),可以在 Job Queue 中查看任務狀態,並透過連結的 Save Audio 節點直接預覽或下載 MP3 成果,這邊已先設定為 320k 的最高品質。檔案也將自動存到 ComfyUI\output\HeartMuLa 路徑中。HeartMuLa 生成的音質細膩且人聲表現自然,讓使用者能在短短幾分鐘內,就在本地端完成一首具備專業水準的完整歌曲。
📃 工作流
此次工作流採贊助方案釋出,方便大家跳過組節點的步驟,但仍然要依照本文教學安裝客製化節點及下載模型喔!
下載點 👉 【ComfyUI工作流】本地生成人聲歌曲(HeartMuLa)
📝 提示詞
這邊提供此次用到的完整提示詞供大家參考。
歌詞
歌詞是由 Gemini 協助生成的。
[Intro]
[Verse 1]
古き根は 土の静寂を抱き
苔に宿る雫 歳月の瞳
風は枝葉を 優しく揺らし
千年的吐息 光に溶ける[Chorus]
神木の光 霧を透かして
水の旋律 心の岸を流る
静かなる守護 時を止めて
この空霊の中 万象は夢を見る[Verse 2]
木漏れ日が降る 黄金の欠片
指先が触れる 森の伝承
言葉はいらない 透明な調べ
空気の中に 自然を描く[Bridge]
密やかに響く 命の鼓動
緑の海へ 深く溶けてゆく[Chorus]
神木の光 霧を透かして
水の旋律 心の岸を流る
静かなる守護 時を止めて
この空霊の中 万象は夢を見る[Outro]
静寂のなかへ…[End]
風格
根據官方說明,各標籤以「,」分開,且不用加入空格。
piano,japanese-style,lightmusic,ethereal,serene,nature,atmospheric,soft,airy,femalevocals,breathyvoice,calm,88bpm
🎧 作品展示
▲ 作品欣賞《ᴴᴰ⁶⁰【HeartMuLa】音樂生成:悠久の神木》(備註:背景圖片由 Nano Banana Pro 生成)
《上一篇》Google Antigravity:人工智慧驅動整合式開發環境,下載、安裝到正體中文化的完整教學 









留言區 / Comments
萌芽論壇