想在本地用中文提示詞,在自己的電腦上進行「幾乎沒有限制、速度又快」的高畫質文生圖?這篇帶你用 ComfyUI 搭配站長整理過的 Z-Image Turbo 文生圖工作流,在 ComfyUI 裡完成純文字輸入 → 高速出圖的流程:直接輸入中文或中英混合提示詞,就能在家用顯卡上穩定輸出 1280×960 解析度的圖片,一張圖只要十幾秒就能看到結果。
Z-Image 是一款約 6B 參數 等級的影像生成模型,由阿里巴巴旗下的通義實驗室發布,目前官方提供三個變體:其中的 Z-Image-Turbo 是經過蒸餾的高速版本,只需 8 NFE(Number of Function Evaluations) 就能達到或超過同級競品的畫質表現,在企業級 H800 GPU 上可實現亞秒級延遲,同時也能輕鬆放進 16GB VRAM 級別的消費級顯卡。它擅長寫實風格、生成人物、簡體中文與英文雙語文字渲染,以及依指令控制構圖。Z-Image-Base 則是未蒸餾的基礎模型,適合社群自行微調與二次開發;而 Z-Image-Edit 則針對圖像編輯任務進行微調,支援以自然語言指令對現有圖片做細緻修改。
本次實測環境為:
- 顯示卡:RTX 5070 Ti 16GB VRAM
- 記憶體:64GB RAM
- 圖片解析度:1280×960(單張高解析度圖像)
- 每批次生成張數:約 1 張(Batch size 1)
- 實際生成時間:約 12~14 秒生成 1 張 1280×960 圖片
本文提供可直接匯入的 ComfyUI 工作流與相關參數說明,並介紹實際使用心得。
環境配置與模型放置
請先完成 ComfyUI 的基本安裝並能順利啟動介面(教學點我)。接著,需要下載並放置 Z-Image Turbo 所需的 diffusion 模型、VAE 與文字編碼器(Text Encoder)。
Z-Image Turbo 的圖片生成流程主要仰賴幾個關鍵元件:Diffusion(UNet 模型) 是整個系統的核心,負責在潛空間中逐步「去噪」,生成完整的畫面內容與細節;VAE 則負責在潛空間與實際影像之間進行轉換,把壓縮後的 latent 特徵還原成實際圖片。文字理解部分則透過 CLIPLoader 載入 Qwen 3 4B 作為文本編碼器,直接支援中文與英文提示詞,無需額外安裝其他 tokenizer。工作流中會再搭配 ModelSamplingAuraFlow 把主模型包裝成適合 AuraFlow 風格取樣流程的結構,讓少量步數也能維持不錯的品質與穩定度。
模型與路徑
- Diffusion(UNet):
z_image_turbo_bf16.safetensors[🔗 下載點]
📁 放置 →ComfyUI/models/diffusion_models/ - VAE:
ae.safetensors[🔗 下載點]
📁 放置 →ComfyUI/models/vae/ - Text Encoder:
qwen_3_4b.safetensors[🔗 下載點]
📁 放置 →ComfyUI/models/text_encoders/
官方與社群實測都指出,雖然 Z-Image Turbo 對 VRAM 的要求不算高,部分使用者回報 8GB 顯示卡也能勉強運行,但實務上建議至少準備 12GB VRAM,官方推薦則是 16GB VRAM 以上,在解析度與速度上會比較從容,不容易遇到 out of memory。
工作流重點與參數設計
這次的工作流將「載入模型 → 設定畫布尺寸與批次數量 → 輸入中文提示詞 → 取樣生成 → 匯出圖片」整理成易懂的三步驟:
- Step 1 – 載入模型(Step 1 - Load models)
- Step 2 – 設定影像尺寸與批次(Step 2 - Image Size & Batch)
- Step 3 – 輸入提示詞(Step 3 - Prompt)
以下依區塊說明重點。整個工作流在 ComfyUI 中已分成對應的群組區塊,方便檢視與調整。
Step 1:載入模型
在 Step1 - 載入模型 群組中,主要會看到三個節點:
- UNETLoader:載入
z_image_turbo_bf16.safetensors,這是 Z-Image Turbo 的主體模型,決定圖片的風格、內容與整體細節表現。這個節點會輸出MODEL,後續交給ModelSamplingAuraFlow做取樣模式設定,再送進取樣器。 - VAELoader:載入
ae.safetensors,做為 VAE 解碼器。建議不要隨意更換成其他 VAE,以避免出現顏色偏差或細節異常的問題。 - CLIPLoader:載入
qwen_3_4b.safetensors,這個文本編碼器支援中文與英文雙語提示詞,直接用自然語言描述畫面即可,不需要特殊 tag 語法或英文關鍵字堆疊。
這些節點共同構成整個文生圖流程的底層結構:UNet 負責「畫」,VAE 負責「還原影像」,Qwen 3 4B 則負責「讀懂你在說什麼」。
額外的 ModelSamplingAuraFlow 節點則將主模型包裝成 AuraFlow 風格的取樣流程,這個設計讓 Z-Image Turbo 能在少步數(預設僅 9 步)的情況下仍維持不錯的畫質與穩定度,非常適合追求「快速出圖」的使用情境。
Step 2:設定影像尺寸與批次數量
在 Step2 - 影像尺寸與批次數量 群組中,主要由 EmptySD3LatentImage 節點負責產生起始 latent:
- 寬度 / 高度:本次設定為 1280 × 960,屬於偏高的解析度,適合用來直接輸出成品或做為後續設計稿。
- Batch Size:設定為 1,可以降低 VRAM 壓力,也比較不容易炸記憶體。
解析度與 VRAM 間的關係非常直接:
- 如果你只有 8GB VRAM,建議先將解析度改為 768×768 或更低,並維持 batch size = 1,優先確認能否穩定跑通整個工作流。
- 12GB VRAM 起,基本上就可以開始嘗試 1024 級別的解析度。
- 16GB VRAM(如本次實測)則能比較輕鬆地跑 1280×960,而且速度仍在可接受範圍內。
如果你的主要目標是「大量生成草稿」而不是一次出高解析度成品,也可以先用較小解析度快速出圖,挑到喜歡的畫面後再提高解析度重跑一次。
Step 3:中文提示詞(Prompt)
在 Step3 - 提示詞 群組中,你會看到 CLIPTextEncode 相關節點負責處理文字輸入:
- CLIPTextEncode(Positive Prompt):輸入你希望畫面呈現的內容,例如「可愛Q版小豬在餐廳吃著豬排」、「藍天空下的現代城市街景,遠處有高樓大廈」等。Z-Image Turbo 對中文理解良好,也能接受中英混合描述。
- ConditioningZeroOut:工作流中將同一段文字同時接到正向與反向條件,並在負向路徑上套用
ConditioningZeroOut,也就是把負向輸入清空,形成「有正向提示、負向留白」的設定,簡化使用門檻。
目前的實測經驗是:
- Z-Image Turbo 在簡單構圖與單一主體的場景表現非常穩定,適合用來做角色立繪、單人物寫實照、產品圖等。
- 對於非常複雜的提示詞(多人物、多場景、多條件構圖),成功率相對較低,容易出現構圖混亂或元素被忽略的情況。
- 生成的角色整體偏向制式與穩定,風格變化與藝術性相對保守,但手指與肢體的成功率相當不錯,這點在日常實用上是加分的。
如果你偏好「快、穩、好用」,而不是追求極致風格化,Z-Image Turbo 的這種性格反而很好駕馭。
取樣器與影像輸出
工作流後半段則負責取樣、解碼與儲存圖片,主要節點包括:
- ModelSamplingAuraFlow:將前面載入的 UNet 模型轉換成 AuraFlow 兼容的取樣形式,讓整體流程可以在少步數下運作。
- KSampler:核心取樣節點。本工作流設定為:
- 取樣步數:9 步(大幅偏向「速度優先」的設定)
- 取樣方式:
res_multistep - Scheduler:
simple - CFG:1,減少過度對提示詞收斂導致的失真或塌縮。
- EmptySD3LatentImage:將解析度與 batch 設定好的 latent 畫布送進 KSampler,作為起點。
- VAEDecode:將取樣完成的 latent 轉回實際圖片。
- SaveImage:負責輸出圖片檔案,本工作流預設儲存路徑為
Z-Image/ComfyUI之類的子資料夾,方便集中管理生成結果。
生成時間與效能觀察
在 RTX 5070 Ti 16GB、解析度 1280×960、步數 9、batch size 1 的設定下,本次實測結果為:
- 每張 1280×960 圖片 ≒ 12~14 秒生成時間
以單卡、近 1.2K 解析度、且只用 9 步取樣來說,這樣的速度相當實用:
- 適合用來做大量角色立繪、封面草稿、社群貼文配圖,可以很快試出多種構圖。
- 若把解析度調低(例如 1024×768 或 896×896),生成時間還可以再更短。
📝 工作流(Z-Image-Turbo.json)
將下列內容複製到文字編輯器,儲存為 Z-Image-Turbo.json 後即可在 ComfyUI 匯入。
{"id":"9ae6082b-c7f4-433c-9971-7a8f65a3ea65","revision":0,"last_node_id":56,"last_link_id":62,"nodes":[{"id":42,"type":"ConditioningZeroOut","pos":[657.9563923143061,727.5619449179278],"size":[197.712890625,26],"flags":{},"order":6,"mode":0,"inputs":[{"name":"conditioning","type":"CONDITIONING","link":36}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[42]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"ConditioningZeroOut","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[]},{"id":44,"type":"KSampler","pos":[900.2638101844517,375.2545050421948],"size":[315,474],"flags":{},"order":7,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":40},{"name":"positive","type":"CONDITIONING","link":41},{"name":"negative","type":"CONDITIONING","link":42},{"name":"latent_image","type":"LATENT","link":43}],"outputs":[{"name":"LATENT","type":"LATENT","slot_index":0,"links":[38]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"KSampler","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[603910102261651,"randomize",9,1,"res_multistep","simple",1]},{"id":47,"type":"ModelSamplingAuraFlow","pos":[902.170767101927,267.16146195967076],"size":[310,60],"flags":{},"order":5,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":62}],"outputs":[{"name":"MODEL","type":"MODEL","slot_index":0,"links":[40]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"ModelSamplingAuraFlow","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[3]},{"id":43,"type":"VAEDecode","pos":[1246.674421956908,171.9069932903472],"size":[210,46],"flags":{},"order":8,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":38},{"name":"vae","type":"VAE","link":39}],"outputs":[{"name":"IMAGE","type":"IMAGE","slot_index":0,"links":[45]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"VAEDecode","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[]},{"id":41,"type":"EmptySD3LatentImage","pos":[114.11162102638363,741.0231817510828],"size":[291.1505813587138,106],"flags":{"collapsed":false},"order":0,"mode":0,"inputs":[],"outputs":[{"name":"LATENT","type":"LATENT","slot_index":0,"links":[43]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"EmptySD3LatentImage","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":[1280,960,1]},{"id":39,"type":"CLIPLoader","pos":[110.6504061988156,437.5619669235152],"size":[293.0745307908545,106],"flags":{},"order":1,"mode":0,"inputs":[],"outputs":[{"name":"CLIP","type":"CLIP","links":[44]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"CLIPLoader","models":[{"name":"qwen_3_4b.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/text_encoders/qwen_3_4b.safetensors","directory":"text_encoders"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["qwen_3_4b.safetensors","lumina2","default"]},{"id":46,"type":"UNETLoader","pos":[110.6504061988156,313.33059962122877],"size":[294.2282397259273,84.30741787014568],"flags":{},"order":2,"mode":0,"inputs":[],"outputs":[{"name":"MODEL","type":"MODEL","links":[62]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"UNETLoader","models":[{"name":"z_image_turbo_bf16.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/diffusion_models/z_image_turbo_bf16.safetensors","directory":"diffusion_models"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["z_image_turbo_bf16.safetensors","default"]},{"id":40,"type":"VAELoader","pos":[110.6504061988156,582.9470431608745],"size":[291.9209098781313,58],"flags":{},"order":3,"mode":0,"inputs":[],"outputs":[{"name":"VAE","type":"VAE","links":[39]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"VAELoader","models":[{"name":"ae.safetensors","url":"https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/vae/ae.safetensors","directory":"vae"}],"enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["ae.safetensors"]},{"id":45,"type":"CLIPTextEncode","pos":[447.9563923143061,312.89033991931956],"size":[410,370],"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":44}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[36,41]}],"properties":{"cnr_id":"comfy-core","ver":"0.3.73","Node name for S&R":"CLIPTextEncode","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["可愛Q版小豬在餐廳吃著豬排"],"color":"#232","bgcolor":"#353"},{"id":9,"type":"SaveImage","pos":[1240,260],"size":[587.3277031053049,593.083825497582],"flags":{},"order":9,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":45}],"outputs":[],"properties":{"cnr_id":"comfy-core","ver":"0.3.64","Node name for S&R":"SaveImage","enableTabs":false,"tabWidth":65,"tabXOffset":10,"hasSecondTab":false,"secondTabText":"Send Back","secondTabOffset":80,"secondTabWidth":65},"widgets_values":["Z-Image/ComfyUI"]}],"links":[[36,45,0,42,0,"CONDITIONING"],[38,44,0,43,0,"LATENT"],[39,40,0,43,1,"VAE"],[40,47,0,44,0,"MODEL"],[41,45,0,44,1,"CONDITIONING"],[42,42,0,44,2,"CONDITIONING"],[43,41,0,44,3,"LATENT"],[44,39,0,45,0,"CLIP"],[45,43,0,9,0,"IMAGE"],[62,46,0,47,0,"MODEL"]],"groups":[{"id":2,"title":"Step2 - 影像尺寸與批次數量","bounding":[102.69410190685915,664.2314113134612,310,200],"color":"#3f789e","font_size":24,"flags":{}},{"id":3,"title":"Step3 - 提示詞","bounding":[427.6925821298544,242.30743987573302,450,540],"color":"#3f789e","font_size":24,"flags":{}},{"id":4,"title":"Step1 - 載入模型","bounding":[100.3865960143639,242.30746188132042,312.3074178701456,410.00000000000006],"color":"#3f789e","font_size":24,"flags":{}}],"config":{},"extra":{"ds":{"scale":0.6934052156909534,"offset":[30.50387374289331,45.14485609161105]},"frontendVersion":"1.32.10","VHS_latentpreview":false,"VHS_latentpreviewrate":0,"VHS_MetadataImage":true,"VHS_KeepIntermediate":true,"workflowRendererVersion":"LG"},"version":0.4}
匯入工作流後若提示遺失節點,建議使用 ComfyUI-Manager 搜尋安裝相關套件。安裝完成後務必重啟 ComfyUI,節點才會出現在清單中。

▲ ComfyUI 的工作流截圖。
提示詞示範與生成成果(以文生圖)
這次示範以「同主題的成對構圖」方式呈現,依序比較動畫風與寫實風的輸出差異。Z-Image Turbo 在理解中文提示詞方面的表現相當穩定,無論是毛筆、文字、校園教室、草地互動、薰衣草花田、魔法效果與顯示卡等元素,都能準確生成。人物比例、手部結構與視線方向也保持在可靠水準,特別是在單主體構圖與特寫畫面中更容易獲得高穩定度的結果。從以下示範中,你可以看到 Turbo 模型在「簡單構圖」與「明確主題」的條件下,能在十多秒內快速提供高品質草稿或成品級的圖片。

▲ 提示詞:動漫二次元風格,穿著水手服的女中學生拿著毛筆在自己臉頰上寫上「萌芽」。模型能正確理解毛筆、書寫動作與臉部文字,人物表情自然,構圖穩定。

▲ 提示詞:真實攝影風格,穿著水手服的女中學生拿著毛筆在自己臉頰上寫上「萌芽」。寫實風也能準確呈現中文字體與動作,光線自然、皮膚與材質表現乾淨。

▲ 提示詞:動漫二次元風格,6 歲妹妹與 12 歲哥哥在地上嬉戲。角色互動、年齡差與開放草地場景表現自然,適合生成溫馨類插畫。

▲ 提示詞:真實攝影風格,6 歲妹妹與 12 歲哥哥在地上嬉戲。肢體比例與互動動作保持穩定,亮度與色調接近戶外自然光感。

▲ 提示詞:動漫二次元風格,粉色長髮的動畫少女站在薰衣草花田中,輕閉雙眼,臉上帶著溫柔的微笑,一手輕輕觸碰側臉,雙丸子頭配有蝴蝶結與小花髮飾,身穿白色校園制服。髮絲、花田與光影氛圍表現柔和,是 Z-Image Turbo 在唯美構圖上的優勢場景。

▲ 提示詞:真實攝影風格,粉色長髮的少女站在薰衣草花田中,輕閉雙眼,臉上帶著溫柔的微笑,一手輕輕觸碰側臉,雙丸子頭配有蝴蝶結與小花髮飾,身穿白色校園制服。。花田景深與柔焦效果自然,髮色與服裝細節維持穩定寫實感。

▲ 提示詞:動漫二次元風格,深紫色長髮、銀灰色瞳孔的神秘系魔法弓手少女,穿著深藍星夜斗篷與金色星象刺繡服裝。她右手張開手心向上,托著一張 NVIDIA 顯示卡(RTX 系列),像魔法物品般懸浮並散發綠色科技光。左手比讚。斗篷與長髮在微風中飄動,表情自信帶微笑。背景是銀河星空與星光碎片平台。商標 LOGO 不太能正確呈現。融合魔法與科技元素時表現亮眼,粒子光效與服裝金縷刺繡相當清楚。

▲ 提示詞:真實攝影風格,深紫色長髮、銀灰色瞳孔的神秘系魔法弓手少女,穿著深藍星夜斗篷與金色星象刺繡服裝。她右手張開手心向上,托著一張 NVIDIA 顯示卡(RTX 系列),像魔法物品般懸浮並散發綠色科技光。左手比讚。斗篷與長髮在微風中飄動,表情自信帶微笑。背景是銀河星空與星光碎片平台。商標 LOGO 同樣不太能正確呈現。寫實人物與科幻主題融合良好,臉部細節與光源方向一致性佳。

▲ 提示詞:可愛Q版小豬在餐廳吃著豬排。Turbo 模型在 Q 版角色上穩定度極高,線條乾淨、氛圍可愛,適合用於貼圖或簡易角色插畫。

▲ 同場加映,只要給予適當的提示詞,此模型可以生成 NSFW 影像,由於不適合在此直接展示,已經打馬賽克。
結語
Z-Image Turbo 把「高速、高品質且相對自由的文生圖」這件事,從雲端服務拉回了個人電腦:以約 6B 參數的模型規模,加上蒸餾與少步數取樣設計,讓它即便在單張消費級顯卡上也能流暢運行。只要準備好 ComfyUI 與三個必要權重(UNet、VAE、Text Encoder),你就能在本地環境中使用中文提示詞生成圖片,不再受限於線上平台的審查與速率限制。
在這樣的設計下,模型本身負責畫面細節與寫實度,Qwen 3 4B 負責理解你的文字,而整體工作流則盡量維持輕量、少步數與高效率。你可以用幾句簡單的文字,就快速產出角色立繪、產品示意圖或場景概念圖,適合作為插畫製作前期草稿、遊戲開發 prototype、美術企劃提案配圖,甚至是日常社群貼文的配圖工廠。
唯一需要留意的是:Z-Image Turbo 對極度複雜的多條件提示詞並不特別友善,風格變化也不像部分專門的藝術模型那麼「狂野」。但同時,它在穩定性、手部表現與中文友好度上都有不錯的平衡,對插畫師、行銷設計、獨立開發者來說,是一套非常值得納入日常工作流程的「本地高速文生圖解決方案」。接下來只要再搭配幾組你常用的中文提示詞模板,就可以把這條 ComfyUI x Z-Image Turbo 工作流,變成你電腦裡隨時待命的出圖工具。
《上一篇》【ASUS 華碩】TUF Gaming VG249Q3R 23.8 吋 FHD 180Hz Fast IPS 電競螢幕 









留言區 / Comments
萌芽論壇