为了账号安全,请及时绑定邮箱和手机立即绑定

稳定扩散用户指南:了解 Flux。第1

提示:一只小猫咪坐在小椅子上举着一本书。书的封面上写着书名《Flux》。在自然光线下,融合了卡通或类似皮克斯的3D元素和自然特征,看起来就像是一个可爱的小猫咪坐在小椅子上,手里拿着一本叫《Flux》的书,周围还散落着一些富有自然气息的元素,看起来就像是一幅卡通画。

Flux.1,Black Forest Labs于2024年1月8日发布的是一款新的文本到图像生成模型,相比其他文本到图像生成模型如Stable Diffusion、Midjourney和OpenAI的DALL-E,在生成质量和指令遵循方面有了显著的提升。

如果你是一位熟悉 SD 1.5 或 SDXL 的业余爱好者,这篇文章会帮助你了解为什么应该考虑使用 Flux.1 来进行图像生成任务。

Flux.1是谁做的?

许多原来Stable Diffusion团队的关键成员现在在Black Forest Labs工作,Flux是他们的旗舰模型。

据说 Stability 的许多成员在发布时已经离职,我们故意不提 SD3,将其视为 SDXL 的非官方继任者。

flux.1有什么特别之处?

正如黑森林实验室所言:
如原文所述

所有公开的FLUX.1模型都是以多模态并行扩散变压器块为基础的混合架构,其规模达到了120亿参数。

阅读他们引用的这篇论文时,我发现一个有趣的地方是使用了两个CLIP模型版本(G/14和L/14)和T5 XXL。

说明。SDXL 也使用两个版本的CLIP模型

正如论文所述,T5的影响是,

注意:原文中的“T5”应保持一致,确保术语的准确性。

我们发现T5在处理复杂提示时非常重要,比如那些需要高度细节或较长文本的提示(如第2行和第3行)。不过,对于大多数提示来说,即使在推理时移除T5,其性能依旧能保持在竞争水平。

ELO分数是一种比较模型、玩家等相对技能的方法,进一步表明Flux.1是表现最佳的模型。

提示是如何完全不同的

在 Flux.1 中进行提示时,你可以更加详细和自然地描述,而不需要使用 SD 1.5 或 SDXL 的旧式提示方式。例如,如下图所示,我使用了如下的提示词:

一张照片中,戴眼镜的女士穿着白色上衣、黑色牛仔短裤和休闲鞋站在纽约市的一条小巷里,手里举着一块用黑色油漆写着“WHAT THE FLUX?!”的硬纸板,背景中有行人经过。

大多数情况下,Flux.1 几乎所有都做得很好——一切顺利,唯一的例外是最终图像中唯一没提到的是她的鞋子!

下面要说的就是另一个关键的部分了。

Flux.1(一个不需要输入否定词的程序)不需要负面提示——这显然需要一些时间来习惯。然而,使用描述性的提示,你通常可以更快地得到你想要的结果。

关于微妙的提示,Flux.1 也相当不错。这里是一个我写的提示样本:

地上有一个绿色金字塔。绿色金字塔旁边有一个红色正方体积木。木椅在积木后面。视角为俯视。采用自然光。

输出如下。

Flux.1 得到了图片中所有元素的正确顺序,真是厉害。视图可能需要稍微调整一下,但总体来说还可以。

Flux有这么多版本,到底是怎么回事呢?

Flux.1有三个不同的版本:Pro,Dev和快速

了解更多不同,你可以看看官方的Flux.1公告

关于 Flux.1 的 GPU 需求

如果你选择使用Flux.1 Dev,最好是有一块至少有12GB显存的GPU。

模型的量化版本可用,例如HuggingFace上的City96提供的那些版本,与ComfyUI配合使用效果很好。如果您更喜欢WebUI Forge,请参阅此帖子了解如何用较少的VRAM设置好环境。

在Reddit上的一些网友报告了不同的推理时间,这取决于他们的GPU。一些具体的数字可以在这个帖子中查看,该帖子总结了各种模型的性能:这里

    +-------------+--------------+
    |      GPU    | 渲染时间     |
    +-------------+--------------+
    | RTX 3060    |     116.81   |
    | RTX 3090    |      29.77   |
    | RTX 4090    |      20.06   |
    | RTX 4060 Ti |      45.00   |
    | GTX 1060    |     600.00   |
    | GTX 1070    |     120.00   |
    | GTX 1080 Ti |     445.57   |
    +-------------+--------------+

    *注:渲染时间以秒计算
微调与LoRAs

zh: Flux.1 刚刚发布之后,社区已经开始忙着创作LoRAs和微调。你可以在往常的地方找到它们,包括Tensor.art、Civitai和HuggingFace。

在测试时,我发现LoRAs通常与基础模型一起使用效果更好,而不是总是下载经过微调的模型。尽管目前还处于早期阶段,不妨先给他们一个机会,不要急于否定它们。

控制网与IP适配器(ControlNets 和 IP-Adapters)

尽管LoRAs的快速发布令人兴奋,社区成员仍在热切期待专门为ControlNets和IP-Adapters设计的版本。

目前,有一些当前值得尝试的初始版本可以从ShakkerAI LabsMisto.AIXLabs-AI这几个地方获得。

不过,目前与NF4或GGUF格式的兼容性可能尚不完全兼容。

想要了解更多关于扩散模型的知识吗?访问Prompting Pixels网站看看,你可以找到详细的教程和视频。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消