隨著人工智慧技術的飛速發展，AI 生成音樂已經不再是新鮮事，但過去高品質的生成往往受限於付費的雲端訂閱服務。最近，開源界迎來了震撼性的進展 —— HeartMuLa 系列模型正式發布。這是一個擁有強大參數量的音樂大模型家族，不僅支援中、英、日、韓、西等多國語言的人聲歌詞生成，更透過其專有的 HeartCodec 技術，實現了極高保真度的音訊輸出。最重要的是，它是完全開源且免費的，這意味著創作者不再需要支付高額月費給 Suno 或 Udio 等平台，就能在自己的電腦上自由地創作專業級的樂曲，且擁有完整的商業使用權與隱私權。

對於熟悉 ComfyUI 的創作者來說，現在更有好消息。透過 benjiyaya 開發的 HeartMuLa_ComfyUI 擴充節點，我們可以直接在熟悉的節點式介面中整合這強大的音樂生成功能。這不僅大幅降低了本地部署的門檻，還讓音樂生成能與其他 AI 視覺工作流相結合。無論你是想為自己的影片創作獨一無二的背景音樂，還是想嘗試將文字靈感轉化為動聽的歌曲，這套方案都提供了極高的靈活性。本文將帶領大家從環境架設、模型下載到實際生成，一步步掌握這款 2026 年當前最強大的開源本地 AI 作曲工具。

▲ 首先開啟命令提示字元並進入 ComfyUI 的 custom_nodes 資料夾（路徑：ComfyUI\custom_nodes，可以由檔案總管位址列輸入「CMD」快速進入），使用 git clone https://github.com/benjiyaya/HeartMuLa_ComfyUI 指令將 HeartMuLa 的自定義節點倉庫複製到本地。接著輸入 cd ../ 回 ComfyUI 根目錄，並利用指令 .\.venv\Scripts\python.exe -m pip install -r custom_nodes\HeartMuLa_ComfyUI\requirements.txt 以 ComfyUI 內建虛擬環境的 pip 工具嘗試安裝 requirements.txt 中的基礎依賴套件，為後續的運算環境打好基礎。

▲ 接著需手動安裝關鍵的音訊處理庫。輸入指令 .\.venv\Scripts\python.exe -m pip install soundfile torchtune torchao 執行安裝 soundfile、torchtune 及 torchao 核心模組，這些套件對於模型在本地進行高效率推論與音訊轉碼至關重要，能確保生成過程不會因缺少模組而中斷。

▲ 環境配置完畢後，需下載模型權重檔。切換至 ComfyUI 的 models 目錄（路徑：ComfyUI\models），利用 Hugging Face CLI 指令集，分別下載 HeartMuLaGen 主模型、3B 版本權重、音訊編碼器以及歌詞轉錄模型。指令如下：

hf download HeartMuLa/HeartMuLaGen --local-dir ./HeartMuLa
hf download HeartMuLa/HeartMuLa-oss-3B --local-dir ./HeartMuLa/HeartMuLa-oss-3B
hf download HeartMuLa/HeartCodec-oss --local-dir ./HeartMuLa/HeartCodec-oss
hf download HeartMuLa/HeartTranscriptor-oss --local-dir ./HeartMuLa/HeartTranscriptor-oss

※ 這些權重檔總體積超過 20GB，下載時請確保硬體空間充足並保持網路連線穩定。

▲ 下載完成後請務必檢查檔案結構，確認在 models 目錄下已建立 HeartMuLa 資料夾，並包含主模型、編解碼器、設定檔及詞表等必要元件。正確的目錄結構是讓 ComfyUI 及客製化節點順利讀取並載入模型權重的關鍵，若資料夾層級錯誤將導致節點無法偵測到已安裝的模型。

▲ 開啟 ComfyUI 後，在節點選單搜尋「HeartMuLa」即可找到相關組件。生成歌曲要將 HeartMuLa Music Generator 節點新增至工作區，該節點整合了歌詞輸入、風格標籤、模型版本選擇及多種推論參數調校功能，是整個 AI 音樂生成流程的核心。

▲ 實際操作時，在歌詞欄位填入內容（支援多國語言，如圖中的日文），並在 tags 欄位輸入風格標籤（如鋼琴、空靈、女聲等）。設定好隨機種子與音訊最長長度等參數後點擊 Run 執行，上方會出現原生進度條，實時顯示模型正在進行繁重的 AI 推理與旋律合成任務。

▲ 生成完成後（此案例花費約 221 秒；我的設備是 RTX 5070 Ti 16 GB VRAM + 64 GB RAM），可以在 Job Queue 中查看任務狀態，並透過連結的 Save Audio 節點直接預覽或下載 MP3 成果，這邊已先設定為 320k 的最高品質。檔案也將自動存到 ComfyUI\output\HeartMuLa 路徑中。HeartMuLa 生成的音質細膩且人聲表現自然，讓使用者能在短短幾分鐘內，就在本地端完成一首具備專業水準的完整歌曲。

📃 工作流

此次工作流採贊助方案釋出，方便大家跳過組節點的步驟，但仍然要依照本文教學安裝客製化節點及下載模型喔！

下載點 👉 【ComfyUI工作流】本地生成人聲歌曲（HeartMuLa）

📝 提示詞

這邊提供此次用到的完整提示詞供大家參考。

歌詞

歌詞是由 Gemini 協助生成的。

[Intro]

[Verse 1]
古き根は　土の静寂を抱き
苔に宿る雫　歳月の瞳
風は枝葉を　優しく揺らし
千年的吐息　光に溶ける

[Chorus]
神木の光　霧を透かして
水の旋律　心の岸を流る
静かなる守護　時を止めて
この空霊の中　万象は夢を見る

[Verse 2]
木漏れ日が降る　黄金の欠片
指先が触れる　森の伝承
言葉はいらない　透明な調べ
空気の中に　自然を描く

[Bridge]
密やかに響く　命の鼓動
緑の海へ　深く溶けてゆく

[Chorus]
神木の光　霧を透かして
水の旋律　心の岸を流る
静かなる守護　時を止めて
この空霊の中　万象は夢を見る

[Outro]
静寂のなかへ…

[End]

風格

根據官方說明，各標籤以「,」分開，且不用加入空格。

piano,japanese-style,lightmusic,ethereal,serene,nature,atmospheric,soft,airy,femalevocals,breathyvoice,calm,88bpm

🎧 作品展示

▲ 作品欣賞《ᴴᴰ⁶⁰【HeartMuLa】音樂生成：悠久の神木》（備註：背景圖片由 Nano Banana Pro 生成）

贊助廣告 ‧ Sponsor advertisements

《上一篇》Google Antigravity：人工智慧驅動整合式開發環境，下載、安裝到正體中文化的完整教學

《下一篇》Z-Image Turbo：繪製二次元動漫角色全身 Q 版圖指南

萌芽站長

您好，我是萌芽系列網站（Mnya Series Website）的站長&創始人，可以稱呼我「萌芽站長」。我的興趣與專長有登山、觀察地形、攝影、旅遊、網頁設計＆架設＆經營、動畫製作、圖片處理、資料彙整等。有任何問題或建議請至萌芽論壇發表。網站業務、商業合作的聯絡方式在「關於本站 → 團隊介紹 → 站長介紹」，很高興認識您！請多指教！

ComfyUI x HeartMuLa：完全免費開源！輕鬆本地生成人聲歌曲（附工作流）

📃 工作流

📝 提示詞

歌詞

風格

🎧 作品展示

留言區 / Comments

萌芽站長

熱門文章

近期文章

頁面

其他操作