【技术实现步骤摘要】
基于扩散模型的图像生成模型压缩和加速方法及系统
[0001]本专利技术涉及人工智能算法相关技术,尤其是基于扩散模型的图像生成模型压缩和加速方法。
技术介绍
[0002]图像生成任务是近年来计算机视觉领域中备受关注的研究领域之一。基于扩散模型的生成方法在从文本到图像生成领域展现出强大的生成能力,其生成结果在生成可控性和图像质量方面超过了以往基于对抗生成网络的方法。无条件扩散模型可以生成真实图片,但无法根据输入文本输出满足特定意向的图片。有条件扩散模型可以根据输入文本生成对应图片。
[0003]然而,基于扩散模型的生成网络在图像生成过程中对计算量的需求较高,这成为阻碍其进一步发展的一个因素。对于使用T个扩散步骤训练的模型,在图像生成阶段,通常会使用相同的时间步序列进行采样。但这会导致扩散模型的图像生成速度变得很慢。一个很直接的方法是使用跨步采样策略,即每[T/S]+1步进行一次采样,以此将采样步骤从T步降为S步。此时,图像生成过程使用的时间步序列为{τ1,τ2,
…
,τS},其中τ1<τ2
【技术保护点】
【技术特征摘要】
1.基于扩散模型的图像生成模型压缩和加速方法,其特征在于,包括如下步骤:步骤S1、构建并训练图像生成模型,训练完成后部署于服务器中;步骤S2、接收用户输入的数据并预处理,将预处理后的数据传送至训练后的图像生成模型;步骤S3、采用训练后的图像生成模型生成图像并输出显示;所述图像生成模型采用TS模型进行知识蒸馏训练。2.如权利要求1所述的基于扩散模型的图像生成模型压缩和加速方法,其特征在于,所述步骤S1进一步为:步骤S11、构建并训练至少一个有条件的扩散模型作为教师模型,该教师模型包括至少一个编码器网络和至少一个解码器网络组成,编码器网络将输入的图像和文本信息转换为隐空间向量,解码器网络将隐空间向量转换为输出图像;步骤S12、初始化至少一个与教师模型结构相同的学生模型,并使用教师模型的参数作为初始参数;步骤S13、对学生模型进行知识蒸馏训练,在完成一轮知识蒸馏后,使用该学生模型作为新的训练轮次的教师模型,并重复进行知识蒸馏训练;得到训练完成的学生模型并作为图像生成模型。3.如权利要求2所述的基于扩散模型的图像生成模型压缩和加速方法,其特征在于,所述步骤S13中,对学生模型进行知识蒸馏训练的过程进一步为:步骤S13a、接收训练集的数据,并从训练数据集中随机选择一张图像和对应的文本信息,并使用预训练的文本编码模型将文本信息转换为特征向量;步骤S13b、从指导强度范围内随机选择一个权重,从时间步集合中随机选择一个时间步,并对图像加t步的随机噪声,得到噪声图像;步骤S13c、对教师模型进行两次前向传播,分别得到两个输出结果zt1和zt2;第一次前向传播时,输入为噪声图像zt、时间步t和特征向量c,并计算(1+w)*(x
(c,θ)
)
’
(zt,t,c)
‑
w*(x
θ
)
’
(zt,t,Φ)
得到输出结果zt1;第二次前向传播时,输入为输出结果zt1、时间步t1=t
–
stride//2和特征向量c,并计算(1+w)*(x
(c,θ)
)
’
(zt1,t1,c)
‑
w*(x
θ
)
’
(zt1,t1,Φ)
得到输出结果zt2;stride表示步长;步骤S13d、对学生模型进行一次前向传播,输入为噪声图像zt、时间步t和特征向量c,并计算(1+w)*(x
(c,η)
)
’
(zt,t,c)
‑
w*(x
η
)
’
(zt,t,Φ)
得到输出结果zst3;其中Φ、η表示与c不符合的负向监督文本特征向量,w表示生成图像在多样性和质量之间的权衡系数;步骤S13e、计算教师模型的输出结果zt2与学生模型的输出结果zst3的均方误差,并计算学生模型参数η对应的梯度,并反向传播以完成一次迭代训练;步骤S13f、判断学生模型训练是否收敛。4.如权利要求3所述的基于扩散模型的图像生成模型压缩和加速方法,其特征在于,当所述教师模型为至少两个,形成集成学习模块时,数据处理过程如下:分别训练每一教师模型,并保存各自的模型参数;接收输入数据,并分别使用各个教师模型进行图像生成,并得到多个输出结果;对于每个输出结果,计算其与输入数据之间的语义相似度,并根据相似...
【专利技术属性】
技术研发人员:曹巍瀚,张一帆,
申请(专利权)人:中科南京人工智能创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。