【AI生图模型】Checkpoint,Textual Inversion,Hypernetwork等主流AI生图模型类型介绍

AI生图有很多种模型类型,本站今天列出这几个,给各位做个详细介绍。

常见模型类型有:

Checkpoint,Textual Inversion,Hypernetwork,Aesthetic Gradient,LoRA,LyCORIS,Controlnet,Poses,Wildcards。

1. Checkpoint(检查点模型)​

定义:Checkpoint是AI模型训练中的关键机制,用于保存模型状态(如参数、优化器状态),确保训练中断后能快速恢复。
核心功能:

  • ​容错性:在分布式训练或长周期任务中,防止因节点故障导致数据丢失。
  • ​加速恢复:记录模型检查点(Checkpoint)的SCN(系统变更号),缩短实例崩溃后的恢复时间。
  • 应用场景:
  • 深度学习框架(如PyTorch、TensorFlow)的训练状态保存。
  • 数据库事务日志管理,确保数据一致性。

​2. Textual Inversion(文本反演)​

定义:通过少量用户提供的图像数据,学习特定概念的伪向量嵌入(Pseudo-Embedding),实现个性化文本到图像生成。
技术原理:

  • ​伪词嵌入:在文本编码器中插入占位符(如[S*]),通过优化其向量表示捕获目标概念的语义与视觉特征。
  • ​扩散模型结合:基于潜变量扩散模型(LDM),生成时结合伪词与文本提示。
  • 优势:
  • 轻量化训练(仅需3-5张样本)。
  • 支持多概念混合生成(如“水彩风格的S”)。

局限:细节保真度较低,需结合其他技术(如Embedding Fine-Tuning)提升效果。


​3. Hypernetwork(超网络)​

定义:一种辅助微调技术,通过小型神经网络修改扩散模型(如Stable Diffusion)的交叉注意力模块,实现风格迁移。
工作原理:

  • ​动态调整交叉注意力权重:在U-Net噪声预测器中插入子网络,动态调整Key和Value向量。
  • ​冻结主模型:仅训练超网络参数,文件体积小(约200MB)。应用场景:
  • 风格模仿(如油画、水彩)。
  • 与LoRA互补,处理复杂风格细节。

​4. LoRA(低秩适应)​

定义:通过低秩矩阵分解微调大模型,仅更新部分参数(如注意力层的权重矩阵),显著降低计算成本。
技术特点:

  • ​参数高效:训练参数量仅为全量微调的0.1%-1%。
  • ​可插拔性:支持多任务切换,通过调整低秩矩阵实现。优势:
  • 适合资源有限场景(如单卡GPU)。
  • 推理无延迟,与原模型无缝兼容。

局限:收敛速度较慢,性能弱于全量微调。


​5. LyCORIS(LoHA)​

定义:LoRA的改进版,通过增加网络层数(26层)和参数复杂度,实现更精细的特征控制。
核心创新:

  • ​分层训练:可单独调整手部、皮肤等局部特征层。
  • ​动态权重分配:支持多变量控制(如<lyco:LyCORIS名称:1:0.5:13>)。应用案例:
  • 手部绘制优化(如EnvyBetterHands模型)。
  • 胶片风格生成(如FilmProvia2)。

​6. ControlNet

定义:通过条件输入(如边缘图、关键点)控制生成图像的构图与内容,提升生成精度。
技术原理:

  • ​多模态条件融合:结合Canny边缘检测、语义分割图等作为输入。
  • ​跳跃连接(Skip Connection)​:将控制信号与原模型特征融合,避免信息丢失。应用场景:
  • 严格构图控制(如对称性、光影方向)。
  • 修复图像细节(如修复老照片)。

​7. Poses(姿态控制)​

定义:通过关键点或骨骼信息约束生成图像中人物的姿态,常与ControlNet结合使用。
实现方式:

  • 输入姿势关键点(如OpenPose输出),通过网络调整生成结果。
  • 应用案例:
  • 生成特定舞蹈动作的CG角色。
  • 虚拟试衣场景的姿态适配。

​8. Wildcards(通配符提示词)​

定义:通过通配符扩展提示词的灵活性,实现多场景生成(如“[cute dog] in [beach]”)。
技术原理:

  • ​语义解析扩展:将通配符映射到预训练的Embedding空间,动态生成相关描述。
  • 优势:
  • 减少提示词工程量,提升生成多样性。
  • 支持零样本生成(如“[aesthetic photo of a [cat]”)。