重新定义开源图像生成的新标准
8步生成,亚秒级出图,比传统模型快10倍
媲美闭源顶级模型的开源SOTA
汉字渲染天花板,完美支持中文
16GB显存即可流畅运行
Apache 2.0,商用无忧
S3-DiT架构创新与先进蒸馏技术
Z-Image Turbo基于Scalable Single-Stream Diffusion Transformer (S3-DiT)架构, 通过单流设计和早融合技术,最大化参数利用效率。
与其他主流模型的全面对比
| 特性 | Z-Image Turbo | Flux Dev | SD3 Medium | Playground v3 |
|---|---|---|---|---|
| 参数量 | 6B | 12B-32B | 2B | ~3.5B |
| 推理步数 | 8-9步 | 20-50步 | 10-20步 | 20步 |
| 显存需求 | 12-16GB | 24GB+ | 8-12GB | 12GB |
| 生成速度 | 极快 | 慢 | 快 | 中等 |
| 中文支持 | SOTA | 一般 | 差 | 中等 |
| 文字渲染 | 完美 | 好 | 差 | 中等 |
覆盖商业设计、游戏开发、创意工作等多个领域
从在线试用到本地部署,总有适合你的方式
# 1. 下载ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# 2. 安装依赖
pip install -r requirements.txt
# 3. 下载模型文件
# 文本编码器:qwen_3_4b.safetensors → models/text_encoders/
# 主模型:z_image_turbo_bf16.safetensors → models/diffusion_models/
# VAE:ae.safetensors → models/vae/
# 来源:https://huggingface.co/Comfy-Org/z_image_turbo
# 安装依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install git+https://github.com/huggingface/diffusers
pip install transformers accelerate safetensors
# Python代码
import torch
from diffusers import ZImagePipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
prompt = "一个穿着红色汉服的年轻女子,手持折扇,背景是西安大雁塔,夕阳照明"
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9,
guidance_scale=0.0
).images[0]
image.save("output.png")
ControlNet、LoRA、视频生成等高级功能全支持
2025年12月初发布的官方ControlNet Union模型,支持多种控制条件:
# ControlNet使用示例
from diffusers import ZImageControlNetPipeline
controlnet = ZImageControlNetModel.from_pretrained(
"alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union"
)
pipe = ZImageControlNetPipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
controlnet=controlnet
)
# 使用控制条件生成
image = pipe(
prompt="一个穿着汉服的女孩在古典园林中漫步",
control_image=depth_map, # 深度图
num_inference_steps=9,
guidance_scale=0.0
).images[0]
虽然Turbo版LoRA兼容性一般,但社区已有完善解决方案:
# LoRA使用示例
from diffusers import ZImagePipeline
pipe = ZImagePipeline.from_pretrained("Tongyi-MAI/Z-Image-Turbo")
# 加载LoRA
pipe.load_lora_weights(
"path/to/lora.safetensors",
adapter_name="style"
)
# 设置LoRA强度(推荐0.6-0.8)
pipe.set_adapters(["style"], adapter_weights=[0.7])
# 生成图像
image = pipe(
prompt="一个赛博朋克风格的城市夜景",
num_inference_steps=9,
guidance_scale=0.0
).images[0]
支持将一张图像转换为另一种风格或内容:
from PIL import Image
input_image = Image.open("input.jpg")
output = pipe(
prompt="将白天改为夜晚,添加霓虹灯效果",
image=input_image,
strength=0.7, # 变化强度0.4-0.7
num_inference_steps=9,
guidance_scale=0.0
).images[0]
ComfyUI有专门的inpainting工作流,需要较高denoise(0.6-0.9)以生效
原生不支持视频,但社区已开发多种方案:
将Z-Image输出作为首帧生成短视频(5-10秒)
上传Z-Image生成视频,用户反馈效果"专业级"
Stable Video Diffusion (SVD)适配版、EbSynth风格转移
最大化Z-Image Turbo的生成效率
# 使用bfloat16(最佳性能)
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16
)
# 启用Flash Attention
if hasattr(pipe.transformer, 'set_attention_backend'):
pipe.transformer.set_attention_backend("flash")
# 使用torch.compile(部分环境)
pipe = torch.compile(pipe)
# 启用CPU offload
pipe.enable_model_cpu_offload()
# 启用VAE slicing
pipe.enable_vae_slicing()
# 使用量化版本
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.float16, # 使用float16
variant="fp16" # 如果有fp16版本
)
# 批量生成提示词
prompts = [
"提示词1:风景",
"提示词2:人像",
"提示词3:抽象"
]
# 批量处理
images = pipe(
prompts,
num_inference_steps=9,
guidance_scale=0.0
).images
# 批量保存
for i, img in enumerate(images):
img.save(f"output_{i}.png")
| GPU型号 | 显存 | 1024x1024生成时间 | 优化建议 |
|---|---|---|---|
| RTX 4090 | 24GB | 2-3秒 | 使用bfloat16 + Flash Attention |
| RTX 4070 Ti | 16GB | 4-6秒 | 启用CPU offload节省显存 |
| RTX 3060 | 12GB | 8-12秒 | 使用量化版(FP8/GGUF) |
| RTX 3060 | 8GB | 15-20秒 | 必须使用量化+CPU offload |
掌握高质量提示词的写作技巧
[主体描述] + [动作/表情] + [环境/背景] + [照明/时间] + [风格/美学] + [相机/技术参数]
| 类别 | 关键词示例 | 效果 |
|---|---|---|
| 质量/细节 | photorealistic, sharp focus, intricate details, 8K, 高清写真 | 真实感+ |
| 照明/氛围 | golden hour, volumetric lighting, 柔和雾气, cinematic | 光影强 |
| 相机/技术 | 35mm lens, f/1.8 aperture, bokeh, Canon EOS, drone shot | 专业构图 |
| 风格 | oil painting, anime by Hayao Miyazaki, 卡通Disney风格 | 多样化 |
| 中文专属 | 汉服古风, 霓虹都市, 水墨山水, 节日灯笼 | 文字/文化渲染 |
"一个可爱女孩在樱花树下,动漫风格,Hayao Miyazaki风格,大眼睛,柔和线条,梦幻色彩,高清细节"
提示:使用知名动画导演名字增强风格
"卡通风格的超级英雄在城市飞行,夸张表情,鲜艳颜色,Disney Pixar风格,3D渲染,光滑纹理"
提示:指定具体工作室风格更佳
"一个宁静的乡村景观,油画风格,Van Gogh笔触,厚重颜料纹理,温暖色调,高分辨率"
提示:使用艺术家名字增强特定风格
从入门到高级的全方位视频教程
涵盖安装、LoRA、Inpaint、Img2Img等全套功能
本地安装完整教程
低显存优化教程
在RunPod上训练LoRA
ControlNet完整使用指南
来自全球用户的声音
Z-Image Turbo vs Midjourney、DALL·E 4、Grok Flux
适合:本地部署、商业使用、中文用户
适合:开发者、企业用户、成本敏感
适合:消费级硬件、本地部署、中文场景
| 特性 | Z-Image Turbo | Midjourney | DALL·E 4 | Grok Flux |
|---|---|---|---|---|
| 生成速度 | 极快(1-3秒) | 慢(30秒+) | 中等(10-15秒) | 慢(20-50秒) |
| 硬件需求 | 低(16GB显存) | 无(云端) | 无(云端) | 高(24GB+) |
| 成本 | 免费 | $10-30/月 | 按用量计费 | 订阅制 |
| 中文支持 | 完美 | 良好 | 一般 | 良好 |
| 开源/可定制 | 完全开源 | 闭源 | 闭源 | 闭源 |
| 隐私安全 | 本地部署 | 云端处理 | 云端处理 | 云端处理 |
看看Z-Image Turbo如何改变行业
使用Z-Image Turbo批量生成商品图,无需模特和摄影棚,快速生成不同场景和角度的产品展示图,大幅降低营销成本。
快速生成角色概念、场景设定和宣传素材,RTX 3060即可流畅运行,小团队也能产出AAA级视觉效果。
实时响应客户需求,几秒生成多版创意方案,A/B测试素材极速产出,赢得更多客户认可。
书籍封面、角色设计快速迭代,结合LoRA训练个人风格,保持创意独特性的同时大幅提升产出。
基于社区真实反馈的完整FAQ列表
快速找到您需要的资源