【AI生图模型】Checkpoint,Textual Inversion,Hypernetwork等主流AI生图模型类型介绍
AI生图有很多种模型类型,本站今天列出这几个,给各位做个详细介绍。
常见模型类型有:
Checkpoint,Textual Inversion,Hypernetwork,Aesthetic Gradient,LoRA,LyCORIS,Controlnet,Poses,Wildcards。
1. Checkpoint(检查点模型)
定义:Checkpoint是AI模型训练中的关键机制,用于保存模型状态(如参数、优化器状态),确保训练中断后能快速恢复。
核心功能:
- 容错性:在分布式训练或长周期任务中,防止因节点故障导致数据丢失。
- 加速恢复:记录模型检查点(Checkpoint)的SCN(系统变更号),缩短实例崩溃后的恢复时间。
- 应用场景:
- 深度学习框架(如PyTorch、TensorFlow)的训练状态保存。
- 数据库事务日志管理,确保数据一致性。
2. Textual Inversion(文本反演)
定义:通过少量用户提供的图像数据,学习特定概念的伪向量嵌入(Pseudo-Embedding),实现个性化文本到图像生成。
技术原理:
- 伪词嵌入:在文本编码器中插入占位符(如[S*]),通过优化其向量表示捕获目标概念的语义与视觉特征。
- 扩散模型结合:基于潜变量扩散模型(LDM),生成时结合伪词与文本提示。
- 优势:
- 轻量化训练(仅需3-5张样本)。
- 支持多概念混合生成(如“水彩风格的S”)。
局限:细节保真度较低,需结合其他技术(如Embedding Fine-Tuning)提升效果。
3. Hypernetwork(超网络)
定义:一种辅助微调技术,通过小型神经网络修改扩散模型(如Stable Diffusion)的交叉注意力模块,实现风格迁移。
工作原理:
- 动态调整交叉注意力权重:在U-Net噪声预测器中插入子网络,动态调整Key和Value向量。
- 冻结主模型:仅训练超网络参数,文件体积小(约200MB)。应用场景:
- 风格模仿(如油画、水彩)。
- 与LoRA互补,处理复杂风格细节。
4. LoRA(低秩适应)
定义:通过低秩矩阵分解微调大模型,仅更新部分参数(如注意力层的权重矩阵),显著降低计算成本。
技术特点:
- 参数高效:训练参数量仅为全量微调的0.1%-1%。
- 可插拔性:支持多任务切换,通过调整低秩矩阵实现。优势:
- 适合资源有限场景(如单卡GPU)。
- 推理无延迟,与原模型无缝兼容。
局限:收敛速度较慢,性能弱于全量微调。
5. LyCORIS(LoHA)
定义:LoRA的改进版,通过增加网络层数(26层)和参数复杂度,实现更精细的特征控制。
核心创新:
- 分层训练:可单独调整手部、皮肤等局部特征层。
- 动态权重分配:支持多变量控制(如<lyco:LyCORIS名称:1:0.5:13>)。应用案例:
- 手部绘制优化(如EnvyBetterHands模型)。
- 胶片风格生成(如FilmProvia2)。
6. ControlNet
定义:通过条件输入(如边缘图、关键点)控制生成图像的构图与内容,提升生成精度。
技术原理:
- 多模态条件融合:结合Canny边缘检测、语义分割图等作为输入。
- 跳跃连接(Skip Connection):将控制信号与原模型特征融合,避免信息丢失。应用场景:
- 严格构图控制(如对称性、光影方向)。
- 修复图像细节(如修复老照片)。
7. Poses(姿态控制)
定义:通过关键点或骨骼信息约束生成图像中人物的姿态,常与ControlNet结合使用。
实现方式:
- 输入姿势关键点(如OpenPose输出),通过网络调整生成结果。
- 应用案例:
- 生成特定舞蹈动作的CG角色。
- 虚拟试衣场景的姿态适配。
8. Wildcards(通配符提示词)
定义:通过通配符扩展提示词的灵活性,实现多场景生成(如“[cute dog] in [beach]”)。
技术原理:
- 语义解析扩展:将通配符映射到预训练的Embedding空间,动态生成相关描述。
- 优势:
- 减少提示词工程量,提升生成多样性。
- 支持零样本生成(如“[aesthetic photo of a [cat]”)。