想在本地用中文提示詞，在自己的電腦上進行「幾乎沒有限制、速度又快」的高畫質文生圖？這篇帶你用 ComfyUI 搭配站長整理過的 Z-Image Turbo 文生圖工作流，在 ComfyUI 裡完成純文字輸入 → 高速出圖的流程：直接輸入中文或中英混合提示詞，就能在家用顯卡上穩定輸出 1280×960 解析度的圖片，一張圖只要十幾秒就能看到結果。

Z-Image 是一款約 6B 參數 等級的影像生成模型，由阿里巴巴旗下的通義實驗室發布，目前官方提供三個變體：其中的 Z-Image-Turbo 是經過蒸餾的高速版本，只需 8 NFE（Number of Function Evaluations） 就能達到或超過同級競品的畫質表現，在企業級 H800 GPU 上可實現亞秒級延遲，同時也能輕鬆放進 16GB VRAM 級別的消費級顯卡。它擅長寫實風格、生成人物、簡體中文與英文雙語文字渲染，以及依指令控制構圖。Z-Image-Base 則是未蒸餾的基礎模型，適合社群自行微調與二次開發；而 Z-Image-Edit 則針對圖像編輯任務進行微調，支援以自然語言指令對現有圖片做細緻修改。

本次實測環境為：

顯示卡：RTX 5070 Ti 16GB VRAM
記憶體：64GB RAM
圖片解析度：1280×960（單張高解析度圖像）
每批次生成張數：約 1 張（Batch size 1）
實際生成時間：約 12～14 秒生成 1 張 1280×960 圖片

本文提供可直接匯入的 ComfyUI 工作流與相關參數說明，並介紹實際使用心得。

環境配置與模型放置

請先完成 ComfyUI 的基本安裝並能順利啟動介面（教學點我）。接著，需要下載並放置 Z-Image Turbo 所需的 diffusion 模型、VAE 與文字編碼器（Text Encoder）。

Z-Image Turbo 的圖片生成流程主要仰賴幾個關鍵元件：Diffusion（UNet 模型） 是整個系統的核心，負責在潛空間中逐步「去噪」，生成完整的畫面內容與細節；VAE 則負責在潛空間與實際影像之間進行轉換，把壓縮後的 latent 特徵還原成實際圖片。文字理解部分則透過 CLIPLoader 載入 Qwen 3 4B 作為文本編碼器，直接支援中文與英文提示詞，無需額外安裝其他 tokenizer。工作流中會再搭配 ModelSamplingAuraFlow 把主模型包裝成適合 AuraFlow 風格取樣流程的結構，讓少量步數也能維持不錯的品質與穩定度。

模型與路徑

Diffusion（UNet）：z_image_turbo_bf16.safetensors［🔗 下載點］
📁 放置 → ComfyUI/models/diffusion_models/
VAE：ae.safetensors［🔗 下載點］
📁 放置 → ComfyUI/models/vae/
Text Encoder：qwen_3_4b.safetensors［🔗 下載點］
📁 放置 → ComfyUI/models/text_encoders/

官方與社群實測都指出，雖然 Z-Image Turbo 對 VRAM 的要求不算高，部分使用者回報 8GB 顯示卡也能勉強運行，但實務上建議至少準備 12GB VRAM，官方推薦則是 16GB VRAM 以上，在解析度與速度上會比較從容，不容易遇到 out of memory。

工作流重點與參數設計

這次的工作流將「載入模型 → 設定畫布尺寸與批次數量 → 輸入中文提示詞 → 取樣生成 → 匯出圖片」整理成易懂的三步驟：

Step 1 – 載入模型（Step 1 - Load models）
Step 2 – 設定影像尺寸與批次（Step 2 - Image Size & Batch）
Step 3 – 輸入提示詞（Step 3 - Prompt）

以下依區塊說明重點。整個工作流在 ComfyUI 中已分成對應的群組區塊，方便檢視與調整。

Step 1：載入模型

在 Step1 - 載入模型 群組中，主要會看到三個節點：

UNETLoader：載入 z_image_turbo_bf16.safetensors，這是 Z-Image Turbo 的主體模型，決定圖片的風格、內容與整體細節表現。這個節點會輸出 MODEL，後續交給 ModelSamplingAuraFlow 做取樣模式設定，再送進取樣器。
VAELoader：載入 ae.safetensors，做為 VAE 解碼器。建議不要隨意更換成其他 VAE，以避免出現顏色偏差或細節異常的問題。
CLIPLoader：載入 qwen_3_4b.safetensors，這個文本編碼器支援中文與英文雙語提示詞，直接用自然語言描述畫面即可，不需要特殊 tag 語法或英文關鍵字堆疊。

這些節點共同構成整個文生圖流程的底層結構：UNet 負責「畫」，VAE 負責「還原影像」，Qwen 3 4B 則負責「讀懂你在說什麼」。

額外的 ModelSamplingAuraFlow 節點則將主模型包裝成 AuraFlow 風格的取樣流程，這個設計讓 Z-Image Turbo 能在少步數（預設僅 9 步）的情況下仍維持不錯的畫質與穩定度，非常適合追求「快速出圖」的使用情境。

Step 2：設定影像尺寸與批次數量

在 Step2 - 影像尺寸與批次數量 群組中，主要由 EmptySD3LatentImage 節點負責產生起始 latent：

寬度 / 高度：本次設定為 1280 × 960，屬於偏高的解析度，適合用來直接輸出成品或做為後續設計稿。
Batch Size：設定為 1，可以降低 VRAM 壓力，也比較不容易炸記憶體。

解析度與 VRAM 間的關係非常直接：

如果你只有 8GB VRAM，建議先將解析度改為 768×768 或更低，並維持 batch size = 1，優先確認能否穩定跑通整個工作流。
12GB VRAM 起，基本上就可以開始嘗試 1024 級別的解析度。
16GB VRAM（如本次實測）則能比較輕鬆地跑 1280×960，而且速度仍在可接受範圍內。

如果你的主要目標是「大量生成草稿」而不是一次出高解析度成品，也可以先用較小解析度快速出圖，挑到喜歡的畫面後再提高解析度重跑一次。

Step 3：中文提示詞（Prompt）

在 Step3 - 提示詞 群組中，你會看到 CLIPTextEncode 相關節點負責處理文字輸入：

CLIPTextEncode（Positive Prompt）：輸入你希望畫面呈現的內容，例如「可愛Q版小豬在餐廳吃著豬排」、「藍天空下的現代城市街景，遠處有高樓大廈」等。Z-Image Turbo 對中文理解良好，也能接受中英混合描述。
ConditioningZeroOut：工作流中將同一段文字同時接到正向與反向條件，並在負向路徑上套用 ConditioningZeroOut，也就是把負向輸入清空，形成「有正向提示、負向留白」的設定，簡化使用門檻。

目前的實測經驗是：

Z-Image Turbo 在簡單構圖與單一主體的場景表現非常穩定，適合用來做角色立繪、單人物寫實照、產品圖等。
對於非常複雜的提示詞（多人物、多場景、多條件構圖），成功率相對較低，容易出現構圖混亂或元素被忽略的情況。
生成的角色整體偏向制式與穩定，風格變化與藝術性相對保守，但手指與肢體的成功率相當不錯，這點在日常實用上是加分的。

如果你偏好「快、穩、好用」，而不是追求極致風格化，Z-Image Turbo 的這種性格反而很好駕馭。

取樣器與影像輸出

工作流後半段則負責取樣、解碼與儲存圖片，主要節點包括：

ModelSamplingAuraFlow：將前面載入的 UNet 模型轉換成 AuraFlow 兼容的取樣形式，讓整體流程可以在少步數下運作。
KSampler：核心取樣節點。本工作流設定為：
- 取樣步數：9 步（大幅偏向「速度優先」的設定）
- 取樣方式：res_multistep
- Scheduler：simple
- CFG：1，減少過度對提示詞收斂導致的失真或塌縮。
EmptySD3LatentImage：將解析度與 batch 設定好的 latent 畫布送進 KSampler，作為起點。
VAEDecode：將取樣完成的 latent 轉回實際圖片。
SaveImage：負責輸出圖片檔案，本工作流預設儲存路徑為 Z-Image/ComfyUI 之類的子資料夾，方便集中管理生成結果。

生成時間與效能觀察

在 RTX 5070 Ti 16GB、解析度 1280×960、步數 9、batch size 1 的設定下，本次實測結果為：

每張 1280×960 圖片 ≒ 12～14 秒生成時間

以單卡、近 1.2K 解析度、且只用 9 步取樣來說，這樣的速度相當實用：

適合用來做大量角色立繪、封面草稿、社群貼文配圖，可以很快試出多種構圖。
若把解析度調低（例如 1024×768 或 896×896），生成時間還可以再更短。

📝 工作流（Z-Image-Turbo.json）

將下列內容複製到文字編輯器，儲存為 Z-Image-Turbo.json 後即可在 ComfyUI 匯入。

{"id":"9ae6082b-c7f4-433c-9971-7a8f65a3ea65","revision":0,"last_node_id":56,"last_link_id":62,"nodes":[{"id":42,"type":"ConditioningZeroOut","pos":[657.9563923143061,727.5619449179278],"size":[197.712890625,26],"flags":{},"order":6,"mode":0,"inputs":[{"name":"conditioning","type":"CONDITIONING","link":36}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[42]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"ConditioningZeroOut","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[]},{"id":44,"type":"KSampler","pos":[900.2638101844517,375.2545050421948],"size":[315,474],"flags":{},"order":7,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":40},{"name":"positive","type":"CONDITIONING","link":41},{"name":"negative","type":"CONDITIONING","link":42},{"name":"latent_image","type":"LATENT","link":43}],"outputs":[{"name":"LATENT","type":"LATENT","slot_index":0,"links":[38]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"KSampler","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[603910102261651,"randomize",9,1,"res_multistep","simple",1]},{"id":47,"type":"ModelSamplingAuraFlow","pos":[902.170767101927,267.16146195967076],"size":[310,60],"flags":{},"order":5,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":62}],"outputs":[{"name":"MODEL","type":"MODEL","slot_index":0,"links":[40]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"ModelSamplingAuraFlow","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[3]},{"id":43,"type":"VAEDecode","pos":[1246.674421956908,171.9069932903472],"size":[210,46],"flags":{},"order":8,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":38},{"name":"vae","type":"VAE","link":39}],"outputs":[{"name":"IMAGE","type":"IMAGE","slot_index":0,"links":[45]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"VAEDecode","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[]},{"id":41,"type":"EmptySD3LatentImage","pos":[114.11162102638363,741.0231817510828],"size":[291.1505813587138,106],"flags":{"collapsed":false},"order":0,"mode":0,"inputs":[],"outputs":[{"name":"LATENT","type":"LATENT","slot_index":0,"links":[43]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"EmptySD3LatentImage","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[1280,960,1]},{"id":39,"type":"CLIPLoader","pos":[110.6504061988156,437.5619669235152],"size":[293.0745307908545,106],"flags":{},"order":1,"mode":0,"inputs":[],"outputs":[{"name":"CLIP","type":"CLIP","links":[44]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"CLIPLoader","models":[{"name":"qwen_3_4b.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/text_encoders/qwen_3_4b.safetensors","directory":"text_encoders"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["qwen_3_4b.safetensors","lumina2","default"]},{"id":46,"type":"UNETLoader","pos":[110.6504061988156,313.33059962122877],"size":[294.2282397259273,84.30741787014568],"flags":{},"order":2,"mode":0,"inputs":[],"outputs":[{"name":"MODEL","type":"MODEL","links":[62]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"UNETLoader","models":[{"name":"z_image_turbo_bf16.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/diffusion_models/z_image_turbo_bf16.safetensors","directory":"diffusion_models"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["z_image_turbo_bf16.safetensors","default"]},{"id":40,"type":"VAELoader","pos":[110.6504061988156,582.9470431608745],"size":[291.9209098781313,58],"flags":{},"order":3,"mode":0,"inputs":[],"outputs":[{"name":"VAE","type":"VAE","links":[39]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"VAELoader","models":[{"name":"ae.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/vae/ae.safetensors","directory":"vae"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["ae.safetensors"]},{"id":45,"type":"CLIPTextEncode","pos":[447.9563923143061,312.89033991931956],"size":[410,370],"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":44}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[36,41]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"CLIPTextEncode","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["可愛Q版小豬在餐廳吃著豬排"],"color":"#232","bgcolor":"#353"},{"id":9,"type":"SaveImage","pos":[1240,260],"size":[587.3277031053049,593.083825497582],"flags":{},"order":9,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":45}],"outputs":[],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"SaveImage","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["Z-Image/ComfyUI"]}],"links":[[36,45,0,42,0,"CONDITIONING"],[38,44,0,43,0,"LATENT"],[39,40,0,43,1,"VAE"],[40,47,0,44,0,"MODEL"],[41,45,0,44,1,"CONDITIONING"],[42,42,0,44,2,"CONDITIONING"],[43,41,0,44,3,"LATENT"],[44,39,0,45,0,"CLIP"],[45,43,0,9,0,"IMAGE"],[62,46,0,47,0,"MODEL"]],"groups":[{"id":2,"title":"Step2 - 影像尺寸與批次數量","bounding":[102.69410190685915,664.2314113134612,310,200],"color":"#3f789e","font_size":24,"flags":{}},{"id":3,"title":"Step3 - 提示詞","bounding":[427.6925821298544,242.30743987573302,450,540],"color":"#3f789e","font_size":24,"flags":{}},{"id":4,"title":"Step1 - 載入模型","bounding":[100.3865960143639,242.30746188132042,312.3074178701456,410.00000000000006],"color":"#3f789e","font_size":24,"flags":{}}],"config":{},"extra":{"ds":{"scale":0.6934052156909534,"offset":[30.50387374289331,45.14485609161105]},"frontendVersion":"1.32.10","VHS_latentpreview":false,"VHS_latentpreviewrate":0,"VHS_MetadataImage":true,"VHS_KeepIntermediate":true,"workflowRendererVersion":"LG"},"version":0.4}

匯入工作流後若提示遺失節點，建議使用 ComfyUI-Manager 搜尋安裝相關套件。安裝完成後務必重啟 ComfyUI，節點才會出現在清單中。

▲ ComfyUI 的工作流截圖。

提示詞示範與生成成果（以文生圖）

這次示範以「同主題的成對構圖」方式呈現，依序比較動畫風與寫實風的輸出差異。Z-Image Turbo 在理解中文提示詞方面的表現相當穩定，無論是毛筆、文字、校園教室、草地互動、薰衣草花田、魔法效果與顯示卡等元素，都能準確生成。人物比例、手部結構與視線方向也保持在可靠水準，特別是在單主體構圖與特寫畫面中更容易獲得高穩定度的結果。從以下示範中，你可以看到 Turbo 模型在「簡單構圖」與「明確主題」的條件下，能在十多秒內快速提供高品質草稿或成品級的圖片。

▲ 提示詞：動漫二次元風格，穿著水手服的女中學生拿著毛筆在自己臉頰上寫上「萌芽」。模型能正確理解毛筆、書寫動作與臉部文字，人物表情自然，構圖穩定。

▲ 提示詞：真實攝影風格，穿著水手服的女中學生拿著毛筆在自己臉頰上寫上「萌芽」。寫實風也能準確呈現中文字體與動作，光線自然、皮膚與材質表現乾淨。

▲ 提示詞：動漫二次元風格，6 歲妹妹與 12 歲哥哥在地上嬉戲。角色互動、年齡差與開放草地場景表現自然，適合生成溫馨類插畫。

▲ 提示詞：真實攝影風格，6 歲妹妹與 12 歲哥哥在地上嬉戲。肢體比例與互動動作保持穩定，亮度與色調接近戶外自然光感。

▲ 提示詞：動漫二次元風格，粉色長髮的動畫少女站在薰衣草花田中，輕閉雙眼，臉上帶著溫柔的微笑，一手輕輕觸碰側臉，雙丸子頭配有蝴蝶結與小花髮飾，身穿白色校園制服。髮絲、花田與光影氛圍表現柔和，是 Z-Image Turbo 在唯美構圖上的優勢場景。

▲ 提示詞：真實攝影風格，粉色長髮的少女站在薰衣草花田中，輕閉雙眼，臉上帶著溫柔的微笑，一手輕輕觸碰側臉，雙丸子頭配有蝴蝶結與小花髮飾，身穿白色校園制服。。花田景深與柔焦效果自然，髮色與服裝細節維持穩定寫實感。

▲ 提示詞：動漫二次元風格，深紫色長髮、銀灰色瞳孔的神秘系魔法弓手少女，穿著深藍星夜斗篷與金色星象刺繡服裝。她右手張開手心向上，托著一張 NVIDIA 顯示卡（RTX 系列），像魔法物品般懸浮並散發綠色科技光。左手比讚。斗篷與長髮在微風中飄動，表情自信帶微笑。背景是銀河星空與星光碎片平台。商標 LOGO 不太能正確呈現。融合魔法與科技元素時表現亮眼，粒子光效與服裝金縷刺繡相當清楚。

▲ 提示詞：真實攝影風格，深紫色長髮、銀灰色瞳孔的神秘系魔法弓手少女，穿著深藍星夜斗篷與金色星象刺繡服裝。她右手張開手心向上，托著一張 NVIDIA 顯示卡（RTX 系列），像魔法物品般懸浮並散發綠色科技光。左手比讚。斗篷與長髮在微風中飄動，表情自信帶微笑。背景是銀河星空與星光碎片平台。商標 LOGO 同樣不太能正確呈現。寫實人物與科幻主題融合良好，臉部細節與光源方向一致性佳。

▲ 提示詞：可愛Q版小豬在餐廳吃著豬排。Turbo 模型在 Q 版角色上穩定度極高，線條乾淨、氛圍可愛，適合用於貼圖或簡易角色插畫。

▲ 同場加映，只要給予適當的提示詞，此模型可以生成 NSFW 影像，由於不適合在此直接展示，已經打馬賽克。

結語

Z-Image Turbo 把「高速、高品質且相對自由的文生圖」這件事，從雲端服務拉回了個人電腦：以約 6B 參數的模型規模，加上蒸餾與少步數取樣設計，讓它即便在單張消費級顯卡上也能流暢運行。只要準備好 ComfyUI 與三個必要權重（UNet、VAE、Text Encoder），你就能在本地環境中使用中文提示詞生成圖片，不再受限於線上平台的審查與速率限制。

在這樣的設計下，模型本身負責畫面細節與寫實度，Qwen 3 4B 負責理解你的文字，而整體工作流則盡量維持輕量、少步數與高效率。你可以用幾句簡單的文字，就快速產出角色立繪、產品示意圖或場景概念圖，適合作為插畫製作前期草稿、遊戲開發 prototype、美術企劃提案配圖，甚至是日常社群貼文的配圖工廠。

唯一需要留意的是：Z-Image Turbo 對極度複雜的多條件提示詞並不特別友善，風格變化也不像部分專門的藝術模型那麼「狂野」。但同時，它在穩定性、手部表現與中文友好度上都有不錯的平衡，對插畫師、行銷設計、獨立開發者來說，是一套非常值得納入日常工作流程的「本地高速文生圖解決方案」。接下來只要再搭配幾組你常用的中文提示詞模板，就可以把這條 ComfyUI x Z-Image Turbo 工作流，變成你電腦裡隨時待命的出圖工具。

贊助廣告 ‧ Sponsor advertisements