基于深度特征生成的图像编辑方法、装置及电子设备制造方法及图纸

技术编号：40379729 阅读：6 留言：0更新日期：2024-02-20 22:18

本发明专利技术提供一种基于深度特征生成的图像编辑方法、装置及电子设备，该方法包括：响应于用户在待编辑图像上确定的操作点和目标点，获取操作点对应的patch邻域特征和目标点对应的patch邻域特征；将操作点对应的patch邻域特征和目标点对应的patch邻域特征分别聚合成与第一w向量维度相等的操作点特征向量和目标点特征向量；基于操作点特征向量和目标点特征向量，利用Transformer模型得到第二w向量；将第二w向量与第一w向量进行拼接处理后得到第三w向量，然后将第三w向量输入预训练的StyleGAN生成器，得到编辑后的图像。从而实现了更高效、更准确、更具有语义性的基于“点拖拽”的交互式图像编辑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像编辑，尤其涉及一种基于深度特征生成的图像编辑方法、装置及电子设备。

技术介绍

1、图像编辑技术是使用计算机对图像信息进行细节修改、编辑处理的技术，大多数的图像编辑技术又是以图像生成技术为基础的，图像生成技术是使用计算机程序生成图像的技术，这种技术可以用于生成各种类型的图像，包括数字艺术、动画、游戏场景、产品设计等。

2、目前，大多数图像编辑技术要么没办法做到精确控制，例如利用stylegan的中间隐向量直接插值处理，只能改变某些特征的风格特征属性，并无法完全解耦控制，并且控制也并不准确可靠。要么就是draggan这种，基于stylegan生成器的中间特征判别能力强大，在语义性和空间性两个维度高度与生成图像相关联，通过监督生成器中间特征的targetpoint(目标点)邻域跟handle point(操作点)邻域的损失优化w向量，最终优化的w向量通过stylegan生成器得到拖拽编辑后的图像。虽然draggan得到了精确的像素点级别的拖拽编辑效果，但是优化算法在实际应用场景中的时间消耗长，并且基于局部优化的算法最终的结果并不一定具有语义性，无法较好地区分编辑运动或者编辑形变，例如大幅度的拖拽应该导致运动，但却发生了大形变。

技术实现思路

1、针对现有技术存在的问题，本专利技术提供一种基于深度特征生成的图像编辑方法、装置及电子设备。

2、第一方面，本专利技术提供一种基于深度特征生成的图像编辑方法，包括：

3、响应于用户在待编辑图像上

4、基于卷积神经网络，将所述操作点对应的patch邻域特征和所述目标点对应的patch邻域特征分别聚合成与第一w向量维度相等的操作点特征向量和目标点特征向量；其中，所述第一w向量为用于生成所述待编辑图像的w向量；

5、基于所述操作点特征向量和所述目标点特征向量，利用transformer模型得到第二w向量；

6、将所述第二w向量与所述第一w向量进行拼接处理后得到第三w向量，然后将所述第三w向量输入预训练的stylegan生成器，得到编辑后的图像；

7、其中，所述transformer模型的训练数据包括：利用所述预训练的stylegan生成器生成的样本图像、所述样本图像对应的w向量、所述样本图像对应的生成器中间特征、以及所述预训练的stylegan生成器训练时所使用的真实图像。

8、在一些实施例中，所述基于所述操作点特征向量和所述目标点特征向量，利用transformer模型得到第二w向量，包括：

9、将所述第一w向量作为所述transformer模型的自注意力模块的输入，然后将所述自注意力模块的输出通过adain层与所述操作点特征向量经mlp处理得到的高维向量相加，相加的结果输入所述transformer模型的交叉注意力模块；

10、将所述目标点特征向量经多次复制得到的向量作为所述交叉注意力模块的输入，与所述相加的结果做交叉注意力操作，得到所述第二w向量。

11、在一些实施例中，所述卷积神经网络为三层卷积层后接一层最大池化层的网络结构。

12、在一些实施例中，所述将所述第二w向量与所述第一w向量进行拼接处理后得到第三w向量，包括：

13、将所述第二w向量与所述第一w向量中的部分向量进行拼接，得到所述第三w向量。

14、在一些实施例中，所述transformer模型的训练过程包括：

15、对于训练中使用的任一训练样本，先对所述训练样本中的样本图像进行边缘检测，得到所述样本图像的边缘信息图，然后对所述边缘信息图中的高响应点进行随机采样，得到训练样本操作点，并在所述训练样本操作点周围指定范围的邻域内进行随机采样，得到训练样本目标点；

16、基于所述训练样本操作点对应的patch邻域特征和所述训练样本目标点对应的patch邻域特征，利用所述卷积神经网络、所述transformer模型和所述预训练的stylegan生成器，得到编辑后的样本图像，以及所述编辑后的样本图像对应的生成器中间特征；

17、基于所述编辑后的样本图像、所述编辑后的样本图像对应的生成器中间特征，使用第一损失函数和第二损失函数对所述transformer模型进行训练；

18、其中，所述第一损失函数用于将编辑后对应于所述训练样本目标点处的patch邻域特征拉近所述训练样本操作点处的原始patch邻域特征；所述第二损失函数用于将编辑后的图像拉近真实图像。

19、在一些实施例中，所述第一损失函数的公式为：

20、ldrag＝‖dragfeat[target patch]-generatorfeat[handle patch]‖1

21、式中，ldrag表示所述第一损失函数的损失值；dragfeat代表所述编辑后的样本图像对应的生成器中间特征；generatorfeat代表所述样本图像对应的生成器中间特征；generatorfeat[handle patch]代表所述训练样本操作点处的原始patch邻域特征；dragfeat[target patch]代表编辑后对应于所述训练样本目标点处的patch邻域特征。

22、在一些实施例中，所述第二损失函数的公式为：

23、lgan＝‖d(dragimg)-1‖

24、式中，lgan表示所述第二损失函数的损失值；d(dragimg)表示判别器对所述编辑后的样本图像的打分；1为所述判别器的最高打分，代表真实图像。

25、第二方面，本专利技术还提供一种基于深度特征生成的图像编辑装置，包括：

26、获取模块，用于响应于用户在待编辑图像上确定的操作点和目标点，获取所述操作点对应的patch邻域特征和所述目标点对应的patch邻域特征；

27、卷积模块，用于基于卷积神经网络，将所述操作点对应的patch邻域特征和所述目标点对应的patch邻域特征分别聚合成与第一w向量维度相等的操作点特征向量和目标点特征向量；其中，所述第一w向量为用于生成所述待编辑图像的w向量；

28、注意力模块，用于基于所述操作点特征向量和所述目标点特征向量，利用transformer模型得到第二w向量；

29、生成模块，用于将所述第二w向量与所述第一w向量进行拼接处理后得到第三w向量，然后将所述第三w向量输入预训练的stylegan生成器，得到编辑后的图像；

30、其中，所述transformer模型的训练数据包括：利用所述预训练的stylegan生成器生成的样本图像、所述样本图像对应的w向量、所述样本图像对应的生成器中间特征、以及所述预训练的stylegan生成器训练时所使用的真实图像。

31、在一些实施例中，所述基于所述操作点特征向量和所述目标点特征向量，利用tra本文档来自技高网...

【技术保护点】

1.一种基于深度特征生成的图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述基于所述操作点特征向量和所述目标点特征向量，利用Transformer模型得到第二w向量，包括：

3.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述卷积神经网络为三层卷积层后接一层最大池化层的网络结构。

4.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述将所述第二w向量与所述第一w向量进行拼接处理后得到第三w向量，包括：

5.根据权利要求1至4任一项所述的基于深度特征生成的图像编辑方法，其特征在于，所述Transformer模型的训练过程包括：

6.根据权利要求5所述的基于深度特征生成的图像编辑方法，其特征在于，所述第一损失函数的公式为：

7.根据权利要求5所述的基于深度特征生成的图像编辑方法，其特征在于，所述第二损失函数的公式为：

8.一种基于深度特征生成的图像编辑装置，其特征在于，包括：

9.一种电子设备，包

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度特征生成的图像编辑方法。

...

【技术特征摘要】

1.一种基于深度特征生成的图像编辑方法，其特征在于，包括：

2.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述基于所述操作点特征向量和所述目标点特征向量，利用transformer模型得到第二w向量，包括：

3.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述卷积神经网络为三层卷积层后接一层最大池化层的网络结构。

4.根据权利要求1所述的基于深度特征生成的图像编辑方法，其特征在于，所述将所述第二w向量与所述第一w向量进行拼接处理后得到第三w向量，包括：

5.根据权利要求1至4任一项所述的基于深度特征生成的图像编辑方法，其特征在于，所述transformer模型的训练过程包...

【专利技术属性】
技术研发人员：王金桥，蔡鹏祥，刘智威，
申请(专利权)人：中科视语句容科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人