图像编辑方法、训练方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:37328980 阅读:12 留言:0更新日期:2023-04-21 23:07
本申请提供一种图像编辑方法、训练方法、装置、电子设备以及存储介质,该方法包括:获取待处理的源图像、源文本和目标文本;通过预先训练好的图像编辑模型对源文本和目标文本进行编码,得到源文本对应的源文本向量和目标文本对应的目标文本向量;基于目标文本向量和源文本向量,计算得到编辑方向向量;将源图像输入图像编辑模型,得到源图像对应的源图像向量;基于编辑方向向量和源图像向量,得到目标图像向量;通过图像编辑模型处理目标图像向量,得到目标文本对应的目标图像。本申请可提高图像编辑效率,减少图像编辑时长。减少图像编辑时长。减少图像编辑时长。

【技术实现步骤摘要】
图像编辑方法、训练方法、装置、电子设备以及存储介质


[0001]本申请涉及图像处理领域,具体涉及一种图像编辑方法、训练方法、装置、电子设备以及存储介质。

技术介绍

[0002]在使用图像编辑模型进行图像编辑时,会向图像编辑模型输入描述编辑方向的文本和图像,通过不断基于生成的图像进行迭代优化,直至得到文本描述的实际图像。该种方式图像编辑效率低,图像编辑时间长。

技术实现思路

[0003]鉴于此,本申请提供一种图像编辑方法、训练方法、装置、电子设备以及存储介质,能够有效地提高图像编辑效率,降低图像编辑时间。
[0004]本申请一实施例提供一种图像编辑方法,包括:获取待处理的源图像、源文本和目标文本,所述源文本为所述源图像对应的描述文本,所述目标文本为目标图像对应的描述文本,所述目标图像为对所述源图像进行编辑得到的图像;通过预先训练好的图像编辑模型对所述源文本和目标文本进行编码,得到所述源文本对应的源文本向量和所述目标文本对应的目标文本向量;基于所述目标文本向量和所述源文本向量,计算得到编辑方向向量;将所述源图像输入所述图像编辑模型,得到所述源图像对应的源图像向量;基于所述编辑方向向量和所述源图像向量,得到所述目标图像向量;通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像。
[0005]本申请基于源文本向量和目标文本的向量以获取图像的编辑方向,并基于编辑方向在源图像向量的基础进行图像编辑,得到目标图像向量,使得图像编辑不再局限于单一的编辑场景,实现对多种编辑场景的图像编辑,又无需在图像编辑时进行迭代优化,提高图像编辑效率,减少图像编辑时间。
[0006]在一些实施例中,图像编辑模型包括:文本编码器,所述通过预先训练好的图像编辑模型对所述源文本和目标文本进行编码,得到所述源文本对应的源文本向量和所述目标文本对应的目标文本向量,包括:
[0007]通过所述文本编码器对所述源文本和目标文本进行编码,得到所述源文本向量和所述目标文本向量;所述基于所述目标文本向量和所述源文本向量,计算得到编辑方向向量,包括:计算所述目标文本向量和所述源文本向量之间的向量差,得到编辑方向向量。
[0008]在一些实施例中,图像编辑模型包括:特征空间转换网络,所述源图像向量为目标特征空间中的向量;所述基于所述编辑方向向量和所述源图像向量,得到所述目标图像向量,包括:将所述编辑方向向量输入所述特征空间转换网络,得到位于目标特征空间的目标编辑方向向量;将所述目标编辑方向向量与所述源图像向量相加,得到所述目标图像向量。
[0009]在一些实施例中,图像编辑模型还包括反演网络和图像生成器,所述反演网络用于基于图像生成位于目标特征空间的向量,所述图像生成器用于基于目标特征空间的向量
生成图像,所述将所述源图像输入所述图像编辑模型,得到所述源图像对应的源图像向量,包括:将所述源图像输入所述图像编辑模型中的反演网络,得到源图像向量,所述源图像向量为目标特征空间的向量;所述通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像,包括:通过所述图像生成器处理所述目标图像向量,得到所述目标图像。
[0010]在一些实施例中,获取待处理的源图像、源文本和目标文本,包括:通过人机交互接口,获取用户的图像编辑指令;基于所述图像编辑指令,确定待处理的源图像、源文本和目标文本;在所述通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像之后,还包括:通过人机交互界面显示所述目标图像。
[0011]本申请一实施例还提供一种图像编辑模型的训练方法,包括:
[0012]获取第一初始向量和第二初始向量;
[0013]通过当前的图像编辑模型处理所述第一初始向量和所述第二初始向量,得到所述第一初始向量对应的源图像样本和所述第二初始向量对应的目标图像样本;
[0014]对所述源图像样本和所述目标图像样本进行编码,得到所述源图像样本对应的源图像向量和所述目标图像样本对应的目标图像向量;
[0015]基于所述目标图像向量和所述源图像向量,计算得到编辑方向向量;
[0016]基于所述编辑方向向量和所述第一初始向量,确定第二初始向量的预测向量;
[0017]基于所述第二初始向量的预测向量和所述第二初始向量,计算总损失值;若所述总损失值满足预设阈值条件,确定所述图像编辑模型训练完成。
[0018]本申请图像编辑模型在训练时,无需使用描述图像编辑方向的文本,而是基于目标图像向量和源图像向量,得到图像编辑方向向量,基于此进行训练,既能够使得训练出来的图像编辑模型不再局限于单一的编辑场景,实现对多种编辑场景的图像编辑,又无需在图像编辑时进行迭代优化,提高图像编辑效率,减少图像编辑时间。
[0019]在一些实施例中,图像编辑模型包括文本编码器;所述对所述源图像样本和所述目标图像样本进行编码,得到所述源图像样本对应的源图像向量和所述目标图像样本对应的目标图像向量,包括:通过预设的图像编码器,对所述源图像样本和所述目标图像样本进行编码,得到所述源图像向量和所述目标图像向量;所述图像编码器与所述文本编码器属于同一对比图文预训练模型;所述基于所述目标图像向量和所述源图像向量,计算得到编辑方向向量,包括:计算所述目标图像向量和所述源图像向量之间的向量差,得到所述编辑方向向量。
[0020]在一些实施例中,第一初始向量和第二初始向量均为目标特征空间中的向量,所述图像编辑模型还包括特征空间转换网络;
[0021]所述基于所述编辑方向向量和所述第一初始向量,确定第二初始向量的预测向量,包括:将所述编辑方向向量输入所述特征空间转换网络,得到位于所述目标特征空间的目标编辑方向向量;将所述目标编辑方向向量与所述第一初始向量相加,得到所述第二初始向量的预测向量。
[0022]在一些实施例中,图像编辑模型还包括反演网络和图像生成器,所述反演网络用于基于图像生成位于目标特征空间的向量,所述图像生成器用于基于目标特征空间的向量生成图像;
[0023]所述通过当前的图像编辑模型处理所述第一初始向量和所述第二初始向量,得到所述第一初始向量对应的源图像样本和所述第二初始向量对应的目标图像样本,包括:通过所述图像生成器处理所述第一初始向量和所述第二初始向量,得到所述第一初始向量对应的源图像样本和所述第二初始向量对应的目标图像样本;
[0024]在所述通过当前的图像编辑模型处理所述第一初始向量和所述第二初始向量,得到所述第一初始向量对应的源图像样本和所述第二初始向量对应的目标图像样本之后,所述方法还包括:将所述目标图像样本输入所述反演网络,得到目标反演向量,和/或,将所述源图像样本输入所述反演网络,得到源反演向量;基于第一子损失值和/或第二子损失值,确定第一损失值,其中,所述第一子损失值为根据所述源反演向量和第一初始向量确定的损失值,所述第二子损失值为根据所述目标反演向量和所述第二初始向量确定的损失值;
[0025]所述基于所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像编辑方法,其特征在于,所述方法包括:获取待处理的源图像、源文本和目标文本,所述源文本为所述源图像对应的描述文本,所述目标文本为目标图像对应的描述文本,所述目标图像为对所述源图像进行编辑得到的图像;通过预先训练好的图像编辑模型对所述源文本和目标文本进行编码,得到所述源文本对应的源文本向量和所述目标文本对应的目标文本向量;基于所述目标文本向量和所述源文本向量,计算得到编辑方向向量;将所述源图像输入所述图像编辑模型,得到所述源图像对应的源图像向量;基于所述编辑方向向量和所述源图像向量,得到所述目标图像向量;通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像。2.如权利要求1所述的图像编辑方法,其特征在于,所述图像编辑模型包括:文本编码器,所述通过预先训练好的图像编辑模型对所述源文本和目标文本进行编码,得到所述源文本对应的源文本向量和所述目标文本对应的目标文本向量,包括:通过所述文本编码器对所述源文本和目标文本进行编码,得到所述源文本向量和所述目标文本向量;所述基于所述目标文本向量和所述源文本向量,计算得到编辑方向向量,包括:计算所述目标文本向量和所述源文本向量之间的向量差,得到编辑方向向量。3.如权利要求1所述的图像编辑方法,其特征在于,所述图像编辑模型包括:特征空间转换网络,所述源图像向量为目标特征空间中的向量;所述基于所述编辑方向向量和所述源图像向量,得到所述目标图像向量,包括:将所述编辑方向向量输入所述特征空间转换网络,得到位于目标特征空间的目标编辑方向向量;将所述目标编辑方向向量与所述源图像向量相加,得到所述目标图像向量。4.如权利要求3所述的图像编辑方法,其特征在于,所述图像编辑模型还包括反演网络和图像生成器,所述反演网络用于基于图像生成位于目标特征空间的向量,所述图像生成器用于基于目标特征空间的向量生成图像,所述将所述源图像输入所述图像编辑模型,得到所述源图像对应的源图像向量,包括:将所述源图像输入所述图像编辑模型中的反演网络,得到源图像向量,所述源图像向量为目标特征空间的向量;所述通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像,包括:通过所述图像生成器处理所述目标图像向量,得到所述目标图像。5.如权利要求1至4中任一项所述的图像编辑方法,其特征在于,所述获取待处理的源图像、源文本和目标文本,包括:通过人机交互接口,获取用户的图像编辑指令;基于所述图像编辑指令,确定待处理的源图像、源文本和目标文本;在所述通过所述图像编辑模型处理所述目标图像向量,得到所述目标文本对应的目标图像之后,还包括:通过人机交互界面显示所述目标图像。
6.一种图像编辑模型的训练方法,其特征在于,...

【专利技术属性】
技术研发人员:刘山源赵京伟李连峰肖志光
申请(专利权)人:深圳鹏行智能研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1