如果說雙人互動是 AI 繪圖的試金石,那麼「四人的樂團表演」簡直就是模型的地獄級試煉。在過去的 Stable Diffusion 時代,當我們試圖在單一提示詞中塞入四個不同的角色時,往往會面臨嚴重的「語義碰撞(Semantic Collision)」。最常見的慘狀莫過於四個人的髮色變得一模一樣、樂器與肢體發生詭異的融合,或是背景的鼓手突然長出了主唱的臉。這主要是因為舊有的 CLIP 文本編碼器無法處理複雜的空間排列與主客體分配。然而,Anima Preview 2(2026/03/11)的出現,讓我們看到了一個僅靠單次 Prompt 就能完成高品質多人構圖的可能性。
Anima 能夠在多人生成上脫穎而出的關鍵,在於它對自然語言描述的極高敏感度。透過 Qwen-3 語言編碼器,模型不再只是機械式地掃描標籤,而是能精確地理解「第一個女孩、第二個女孩、位於右側的女孩」這種順序與方位的關係。在多人構圖中,這意味著我們可以使用長句子來精確定義每個人的站位、外觀細節甚至是正在使用的樂器類型。這種強大的角色隔離(Character Isolation)能力,讓 2B 參數規模的 Anima 展現出了媲美甚至超越 12B 以上大型模型的邏輯性。對於創作者而言,這代表著「一鍵生成完整場景」的夢想又往邁進了一大步,大大減少了後期局部重繪的繁瑣程序。
為了驗證 Anima 在多人生成上的實力上限,我們特別選擇了《孤獨搖滾!》中的「結束樂團(結束バンド)」作為測試對象。這是一個極高難度的挑戰:後藤一里(小孤獨)、喜多郁代、伊地知虹夏與山田涼,四位成員不僅有著截然不同的外觀、性格,更各自對應了主奏吉他、節奏吉他、鼓組與貝斯這四種完全不同的樂器。在生成十張的測試中,Anima 在其中的一張準確地捕捉到了小孤獨的粉色運動外套與內向神情、喜多的燦爛笑容、虹夏的標誌性側馬尾以及涼的冷靜氣質。模型還營造出充滿張力的現場演出氛圍。接下來,就讓我們透過這場視覺盛宴,見證 Anima 如何在自然語言的驅動下,精準還原這場傳說中的演奏會。
生成圖片參數
疊代步數:30 步
輸出尺寸:1280 x 960 px(4:3)[原始檔案]
使用工具:ComfyUI、Anima Preview 2
CFG Scale:4
採樣器:er_sde
提示詞:newest, score_9, score_8_up, masterpiece, best quality, highres, year 2025, safe, 4girls,
(gotoh hitori), (ijichi nijika), (yamada ryo), (kita ikuyo), bocchi the rock!,A cinematic wide-angle shot of a live concert stage.
The first girl, Gotoh Hitori, has long pink hair with blue and yellow cube hair ornaments; she is wearing her signature pink track jacket and a grey pleated skirt while looking down nervously and playing a black Gibson Les Paul lead guitar.
The second girl, Kita Ikuyo, is at the center with long red hair and a bright energetic smile; she is wearing a white sailor collar shirt with a red bowtie and a black skirt while singing into a microphone and holding a red rhythm guitar.
The third girl, Ijichi Nijika, is in the background with blonde hair in a side ponytail and a ahoge; she is wearing a white shirt with a red bowtie and a blue skirt while hitting a professional drum kit with wooden sticks.
The fourth girl, Yamada Ryo, is on the right side with short blue hair and two black parallel hairclips; she is wearing a white shirt, a blue skirt, and a black ribbon while maintaining a stoic expression and playing a cool bass guitar.
The stage is filled with volumetric stage lights, scattered flower petals, and glowing embers, creating a legendary performance atmosphere.

▲「孤獨搖滾!」(ぼっち・ざ・ろっく!,Bocchi the Rock!)的「後藤一里」(後藤 ひとり,Goto Hitori)、「喜多郁代」(喜多 郁代,Kita Ikuyo)、「山田涼」(山田 リョウ,Yamada Ryo)與「伊地知虹夏」(伊地知 虹夏,Ijichi Nijika),此圖為生成 10 張後選出最完美的一張。模型精確地處理了四人的特徵分配:小孤獨的粉色運動服、喜多的活力主唱姿態、涼的貝斯以及位於後方的虹夏鼓手位。在單一提示詞下能同時確保四個角色的角色還原度且樂器沒有明顯崩壞,這證明了 Anima 在處理多人複雜場景上具有極強的語義邏輯,成功率比起傳統模型多太多了。
《上一篇》一鍵產出 MQTT TLS 證書:私有 CA、Server 與 Client 憑證生成工具 









留言區 / Comments
萌芽論壇