隨著生成式 AI 技術的飛速發展,影片生成領域正迎來一場革命。由 Lightricks 團隊開發的 LTX-2 模型正式發布,並在首日即獲得 ComfyUI 的原生支援,這對於廣大 AI 創作愛好者來說無疑是一大福音。LTX-2 不僅能生成高品質的視覺畫面,最令人驚豔的是它具備同步生成語音、對話、背景噪音與音樂的能力,真正實現了「一次生成,聲影俱全」的創作流程。以往的 AI 影片製作往往需要繁瑣的分步處理:先生成影像,再透過額外的模型進行嘴型同步(Lip-sync),最後還要手動配上音效。而 LTX-2 透過其強大的多模態架構,讓創作者只需提供一段文字描述,甚至是單張圖片加上對話腳本,就能在單次推論中完成所有工作。
LTX-2 的核心優勢在於其對資源的高效利用與對動態細節的精準捕捉。該模型能夠同步生成動作、對話與背景音效,創造出高度連貫的視聽體驗。此外,得益於與 NVIDIA 的技術合作,LTX-2 在 ComfyUI 中展現了強大的效能優化。透過 NVFP4 與 NVFP8 量化權重,使用者可以在節省高達 60% 顯存(VRAM)的情況下,獲得比過往快上 3 倍的生成速度。這意味著即便是使用消費級顯卡的創作者,現在也能在本地端製作出專業級的影音內容,大幅降低了創作門檻。
本次實測我們將聚焦於 LTX-2 的「圖生影(Image to Video, I2V)」功能。我們以一對喜愛攝影的日本學生在咖啡廳聚會為背景,展示如何將靜止的照片轉化為富有情感、帶有自然對話的有聲短片。從室內的輕鬆談笑到戶外的道別,LTX-2 將帶領我們見證 AI 敘事的新高度。

▲ 首先在 ComfyUI 中啟動工作流。點擊 LOGO 選單的「File」並選擇「Open」,我們可以載入官方提供的 LTX-2 之 I2V 工作流 JSON 檔案(直接下載點 / 來源網址)。

▲ 如果您的環境中缺少對應的模型權重,系統會彈出「Missing Models」提示。LTX-2 包含主權重(Checkpoints)、Text Encoder(如 Gemma 3)以及相關的 Upscaler 元件等。您可以直接點擊下載或複製 URL 手動下載至對應資料夾中。

▲ 在節點介面中,我們可以看到「Text to Video (LTX 2.0)」核心節點。使用者可以在此調整提示詞,讓模型精確對位語音、表情與背景音效,實現高度同步的影音效果。我們先進入子流程看看。

▲ 這是子流程全景圖。雖然節點數量看起來較多,但各個模組分工明確。這種高度模組化的設計,賦予了開發者在創作時極大的自由度與控制權。

▲ 進入本次 I2V 實測核心。我們載入先前用 AI 生成的咖啡廳對話照片,並將自定義的敘述及對話腳本填入文字節點中。模型會讀取圖片的人物特徵,並結合文字內容來模擬嘴型與面部表情。設定完成後,點擊上方藍色的「Run」按鈕即可開始生成。以此次的設置為 1280 x 720 且共 97 幀下幾乎已經到我的硬體極限(RTX 5070 Ti 16 GB VRAM + 64 GB RAM),再增加一點幀數可能都會爆 VRAM。

▲ 運算完成。我們可以看到生成的 MP4 檔案已準備就緒,僅需短短幾分鐘,一張靜態照片就轉化成了包含環境音效、人物對話且動作自然的實景短片,輸出效率令人驚豔。

▲ 本文封面圖,圖中兩張照片是我事先用 AI 生成的,就是此次為了測試圖生影的原始參考圖。
▲ 測試示範影片欣賞《ᴴᴰ【LTX-2】圖生影測試:午後咖啡約會與道別》
🎬 測試示範影片章節:
一、咖啡廳內的輕鬆交流:這段影片展示了 LTX-2 處理近距離人像互動的驚人實力。
📝 提示詞:A cinematic video in a sunlit cafe where a young woman holding an iced coffee smiles and asks, "Did you actually capture that shot?" The man leans forward, laughing as he replies, "Yeah, it’s going to be a masterpiece!" Their lips move in sync with the dialogue while their expressions shift naturally from curiosity to amusement. Subtle motions include the woman tilting her head, steam rising from a matcha latte on the table, and blurred pedestrians walking past the large window in the background under natural light.
二、門口的道別與約定:當場景轉換到咖啡廳門口,LTX-2 展現了其對戶外光影的處理能力。
📝 提示詞:A cinematic video capturing a young Japanese woman and a man walking out of a cozy cafe into the bright afternoon sunlight. The woman pauses at the door, waves her hand with a warm smile, and says, "See you at the gallery tomorrow!" The man, holding his vintage camera, nods and waves back as he walks toward the sidewalk, replying, "Can't wait to see your photos!" Their hair and clothes move gently in the breeze as they part ways. The scene features natural lens flares from the sun, realistic walking motions, and the vibrant, blurred street life in the background as the camera slowly pans to follow their separate paths.
《上一篇》ComfyUI:解決 RTX 50 系列 Blackwell 架構 CUDA Kernel 錯誤
《下一篇》ComfyUI x Qwen-Image-Edit-2511:實現極高角色一致性的次世代圖像語意編輯實測(附工作流) 









留言區 / Comments
萌芽論壇