System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于生成图像的扩散模型混合精度量化方法技术_技高网

一种用于生成图像的扩散模型混合精度量化方法技术

技术编号:41097122 阅读:3 留言:0更新日期:2024-04-25 13:55
一种用于生成图像的扩散模型混合精度量化方法,包括:使用图像训练数据,采用单路径采样的混合精度量化训练策略进行模型的训练,该策略以设定的量化位宽对模型进行训练,并根据模型不同层对量化的敏感性给不同层分配不同的量化位宽,通过模型的向前和向后传播更新对应的量化位宽和量化参数,训练得到混合精度量化超网;运用基于时间步长的遗传算法进行搜索,根据时间步长动态调整量化位宽的配置,通过突变和交叉操作生成新的候选方案,候选方案包含不同的时间步长和量化位宽的组合,以表现最优的候选方案作为最终方案,得到最终的用于生成图像的扩散模型。本发明专利技术的方法能够降低部署的内存开销,节省相关的存储资源,提高模型的生成速度和质量。

【技术实现步骤摘要】

本专利技术涉及图像生成,特别是涉及一种用于生成图像的扩散模型混合精度量化方法


技术介绍

1、现有的工程技术中,用户主要通过知识蒸馏的方式,从已经训练好的教师模型中蒸馏得到步数更低的学生模型,从而提高扩散生成模型的生成速度和质量。但是该方案没有考虑模型量化的作用,并且没有考虑不同时间步长的选择方案对生成质量和速度的影响。

2、新的研究结果主要从高效采样和模型量化两个角度进行扩散模型的加速:

3、1)一部分方法通过丢弃扩散模型的马尔可夫性质,通过重新构建生成方程从而大大降低扩散模型的采样步数;一部分方法运用可微搜索的方法搜索时间步长和加速采样器选择策略从而提高模型表现。但是这些方法没有同时考虑时间步长选择以及混合精度量化的问题。

4、2)在统一精度量化部分,一部分方法针对扩散模型中的unet结构以及随着时间步长改变的激活量化范围设计模型量化方法;在混合精度量化部分,一部分方法根据不同位宽的信噪比来进行位宽决策分配。但是这些方法不能够很好地捕捉到模型不同层的量化敏感性,对模型的量化位宽分配也是静态的。

5、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种用于生成图像的扩散模型混合精度量化方法。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种用于生成图像的扩散模型混合精度量化方法,包括:

4、第一阶段:使用图像训练数据,采用单路径采样的混合精度量化训练策略进行模型的训练,该策略以设定的量化位宽对模型进行训练,并根据模型不同层对量化的敏感性给不同层分配不同的量化位宽,通过模型的向前和向后传播更新对应的量化位宽和量化参数,以最小化损失误差,经过训练后得到一个混合精度量化超网;

5、第二阶段:在训练得到的混合精度量化超网上运用基于时间步长的遗传算法进行搜索,所述遗传算法在搜索过程中根据时间步长动态调整量化位宽的配置,通过突变和交叉操作生成新的候选方案,所述候选方案包含不同的时间步长和量化位宽的组合,通过方案评估方法维护表现最佳的候选方案集合,以表现最优的候选方案作为最终方案,确定最优的模型配置,从而得到最终的用于生成图像的扩散模型。

6、进一步地:

7、所述第一阶段中,利用单路径采样的方法通过多次迭代训练得到混合精度模型,在每一个迭代轮次中依次执行如下步骤:

8、s1、在模型的每一层内,根据预设的概率选择一条路径进行前向传播;确定权重和激活的选择位宽并量化;在每一层中,根据选择位宽的概率进行前向传播,得到这一层的量化输出;

9、s2、在每一层按照步骤s1采样路径并得到对应的输出后,计算每一层量化输出与实际输出之间的损失误差;

10、s3、根据步骤s2得到的损失误差,按照梯度下降法反向传播更新选择的位宽的量化参数。

11、步骤s1具体包括:

12、在模型的每一层内按照概率选择一条路径进行前向传播;记权重的位宽选择集合为{w1,w2,...,wn},对于每一个wi,有si,zi分别代表放缩因子以及偏移量;第i种位宽对权重wfp进行量化,采用如下公式,:

13、

14、其中代表舍入函数;记激活的位宽选择集合为{a1,a2,...,am},对于每一个ai,同样有si,zi,第i种位宽对该层的输出xout进行量化,采用如下公式:

15、

16、其中xq既为本层的输出又为下一层的输入;

17、在每一层中按照概率确定这一轮采取的权重和激活的选择位宽wi,aj后,按照上面两个公式在层内进行前向传播,得到这一层对应的量化输出xq。

18、步骤s1中,各位宽的选择概率与其自身的比特数成反比,具体来说,各位宽的比特数为{b1,b2,...,bn},其中b1<b2<…<bn,其对应的选择概率为其中sum=∑bi。

19、步骤s2和步骤s3具体包括:

20、步骤s2:在每一层按照步骤s1采样路径并得到对应的输出后,计算每一层的损失误差:

21、

22、其中,mse表示均方误差;

23、步骤s3:根据步骤s2得到的损失误差,按照梯度下降法反向传播更新选择的位宽wi,aj的量化参数{si,zi}以及{sj,zj}。

24、所述第二阶段中,利用遗传算法进行搜索,具体步骤如下:

25、t1:设定需要采样的时间步长数量以及最大整形运算量限制;

26、t2:随机初始化多个候选策略,计算每个策略对应的生成效果表现,维护表现靠前的多个策略;其中,记候选策略ci={ti,bi},其中ti代表选择哪些时间步长进行采样,bi代表对于每一个时间步长下的模型每一层采用的量化位宽选择集合;

27、t3:迭代中执行遗传算法的交叉、突变、随机初始化操作,并计算对应的fid来更新最佳策略集合;

28、t4:通过遗传算法的交叉操作生成新策略;

29、t5:通过遗传算法的突变操作生成新策略;

30、t6:通过遗传算法的随机初始化生成新策略;

31、t7:根据fid更新最佳策略集合。

32、步骤t2中,采用基于kendall-tau相关系数的近似评估方法计算每个策略对应的生成效果表现,采用fid指标来衡量生成数据集的逼真程度;

33、其中,采样出n条时间步长路径{s1,s2,...,sn},其中代表一条长为m的采样路径,对于这n条时间步长路径,分别采样50k与nnum个样本,与目标数据集分别计算fid,得到两组fid评估数据与计算这两组数据之间的kendall-tau相关系数τ,以满足τ大于设定阈值的最小数量的nnum作为每个策略的生成图片数量。

34、步骤t4中,所述交叉操作具体包括:从表现靠前的候选策略集合中随机选择两个策略c1={t1,b1},c2={t2,b2},从中形成新的策略c3={t3,b3},其中t3,b3各个维度分别为50%概率{t1,t2},{b1,b2}对应维度的值。

35、步骤t4中,所述突变操作具体包括:从表现靠前的候选策略集合中随机选择一个策略c1={t1,b1},从中形成新的策略c2={t2,b2},其中t2,b2各个维度95%概率与t1,b1对应维度的值相同,5%概率会突变成随机值。

36、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的扩散模型混合精度量化方法。

37、本专利技术具有如下有益效果:

38、本专利技术提出一种用于生成图像的扩散模型混合精度量化方法,针对扩散模型的时间步长特性,在混合精度量化的背景下训练和搜索得到一个在时间步长和模型不同层下动态分配量化位宽的模型,提高扩散模型的本文档来自技高网...

【技术保护点】

1.一种用于生成图像的扩散模型混合精度量化方法,其特征在于,包括:

2.如权利要求1所述的扩散模型混合精度量化方法,其特征在于,所述第一阶段中,利用单路径采样的方法通过多次迭代训练得到混合精度模型,在每一个迭代轮次中依次执行如下步骤:

3.如权利要求2所述的扩散模型混合精度量化方法,其特征在于,步骤S1具体包括:

4.如权利要求3所述的扩散模型混合精度量化方法,其特征在于,步骤S1中,各位宽的选择概率与其自身的比特数成反比,具体来说,各位宽的比特数为{b1,b2,…,bn},其中b1<b2<…<bn,其对应的选择概率为其中SUM=∑bi。

5.如权利要求3所述的扩散模型混合精度量化方法,其特征在于,步骤S2和步骤S3具体包括:

6.如权利要求1至5任一项所述的扩散模型混合精度量化方法,其特征在于,所述第二阶段中,利用遗传算法进行搜索,具体步骤如下:

7.如权利要求6所述的扩散模型混合精度量化方法,其特征在于,步骤T2中,采用基于Kendall-tau相关系数的近似评估方法计算每个策略对应的生成效果表现,采用FID指标来衡量生成数据集的逼真程度;

8.如权利要求6或7所述的扩散模型混合精度量化方法,其特征在于,步骤T4中,所述交叉操作具体包括:从表现靠前的候选策略集合中随机选择两个策略c1={T1,B1},c2={T2,B2},从中形成新的策略c3={T3,B3},其中T3,B3各个维度分别为50%概率{T1,T2},{B1,B2}对应维度的值。

9.如权利要求6至8任一项所述的扩散模型混合精度量化方法,其特征在于,步骤T4中,所述突变操作具体包括:从表现靠前的候选策略集合中随机选择一个策略c1={T1,B1},从中形成新的策略c2={T2,B2},其中T2,B2各个维度95%概率与T1,B1对应维度的值相同,5%概率会突变成随机值。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至9任一项所述的扩散模型混合精度量化方法。

...

【技术特征摘要】

1.一种用于生成图像的扩散模型混合精度量化方法,其特征在于,包括:

2.如权利要求1所述的扩散模型混合精度量化方法,其特征在于,所述第一阶段中,利用单路径采样的方法通过多次迭代训练得到混合精度模型,在每一个迭代轮次中依次执行如下步骤:

3.如权利要求2所述的扩散模型混合精度量化方法,其特征在于,步骤s1具体包括:

4.如权利要求3所述的扩散模型混合精度量化方法,其特征在于,步骤s1中,各位宽的选择概率与其自身的比特数成反比,具体来说,各位宽的比特数为{b1,b2,…,bn},其中b1<b2<…<bn,其对应的选择概率为其中sum=∑bi。

5.如权利要求3所述的扩散模型混合精度量化方法,其特征在于,步骤s2和步骤s3具体包括:

6.如权利要求1至5任一项所述的扩散模型混合精度量化方法,其特征在于,所述第二阶段中,利用遗传算法进行搜索,具体步骤如下:

7.如权利要求6所述的扩散模型混合精度量化方法,其特征在于,步骤t2...

【专利技术属性】
技术研发人员:孙昊钧王智
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1