一种图像编辑方法、装置、介质及设备制造方法及图纸

技术编号:34886810 阅读:12 留言:0更新日期:2022-09-10 13:44
本申请实施例公开了一种图像编辑方法、装置、介质及设备。其中该方法包括:获取待编辑的原始图像及与所述原始图像对应的目标文本;获取预先训练的图像编辑模型;其中,所述图像编辑模型包括卷积层、文本编码器、残差块及解码单元;通过所述卷积层提取所述原始图像的全局图像特征,通过所述文本编码器提取所述目标文本的全局文本特征及单词特征;通过所述残差块对所述全局图像特征及所述全局文本特征进行融合,得到隐藏层图像特征;通过所述解码单元对所述隐藏层图像特征及所述单词特征进行整合,得到对所述原始图像编辑后的目标图像。本方案,可以有效解决图像编辑精度低,输出图像与输入文本描述之间不完全匹配的问题,提高图像编辑的准确性。像编辑的准确性。像编辑的准确性。

【技术实现步骤摘要】
一种图像编辑方法、装置、介质及设备


[0001]本申请实施例图像处理领域,尤其涉及一种图像编辑方法、装置、介质及设备。

技术介绍

[0002]随着深度学习在图像、视频、文本及语音处理等多个领域的成功应用。将深度学习应用于图像与文本结合仍处于发展阶段。
[0003]现有技术中通过多模态表示学习方式将图像和文本特征映射到同一语义空间,训练得到文本编码器。使用条件生成对抗网络作为基础模型,输入经过预训练文本编码器编码的文本特征以及经过预处理的图像,经过生成对抗网络生成器与判别器的对抗训练过程,对网络模型参数进行学习,最终得到满足任务要求的模型。
[0004]基于自然语言文本描述进行图像编辑是结合图像与文本的条件图像合成研究领域受关注度比较大的研究任务,这一任务的整体目标是,输入一张原始图像以及一句目标文本描述,输出一张经过编辑的图像,使得输出图像在整体上满足文本描述,同时保持原有图像中与文本描述无关的细节。然而,采用多模态表示学习方式训练得到的文本编码器仅为后续条件生成对抗网络模型提供全局句子特征,图像编辑精度低,输出图像与输入文本描述之间不完全匹配。

技术实现思路

[0005]本申请实施例提供一种图像编辑方法、装置、介质及设备,通过在预先训练的图像编辑模型中设计加入基于注意力机制的解码单元,能够有效解决图像编辑精度低,输出图像与输入文本描述之间不完全匹配的问题,提高图像编辑的准确性。
[0006]第一方面,本申请实施例提供了一种图像编辑方法,所述方法包括:
[0007]获取待编辑的原始图像及与所述原始图像对应的目标文本;其中,所述目标文本为用于对所述原始图像进行编辑操作的文本;
[0008]获取预先训练的图像编辑模型;其中,所述图像编辑模型包括卷积层、文本编码器、残差块及解码单元;
[0009]将所述原始图像输入至所述图像编辑模型中的卷积层,通过所述卷积层提取所述原始图像的全局图像特征,同时将所述目标文本输入至所述文本编码器,通过所述文本编码器提取所述目标文本的全局文本特征及单词特征;通过所述残差块对所述全局图像特征及所述全局文本特征进行融合,得到隐藏层图像特征;通过所述解码单元对所述隐藏层图像特征及所述单词特征进行整合,得到对所述原始图像编辑后的目标图像。
[0010]第二方面,本申请实施例提供了一种图像编辑装置,该装置包括:
[0011]原始图像及目标文本获取模块,用于获取待编辑的原始图像及与所述原始图像对应的目标文本;其中,所述目标文本为用于对所述原始图像进行编辑操作的文本;
[0012]图像编辑模型获取模块,用于获取预先训练的图像编辑模型;其中,所述图像编辑模型包括卷积层、文本编码器、残差块及解码单元;
[0013]目标图像获取模块,用于将所述原始图像输入至所述图像编辑模型中的卷积层,通过所述卷积层提取所述原始图像的全局图像特征,同时将所述目标文本输入至所述文本编码器,通过所述文本编码器提取所述目标文本的全局文本特征及单词特征;通过所述残差块对所述全局图像特征及所述全局文本特征进行融合,得到隐藏层图像特征;通过所述解码单元对所述隐藏层图像特征及所述单词特征进行整合,得到对所述原始图像编辑后的目标图像。
[0014]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的图像编辑方法。
[0015]第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的图像编辑方法。
[0016]本申请实施例所提供的技术方案,通过在预先训练的图像编辑模型中设计加入基于注意力机制的解码单元,能够有效解决图像编辑精度低,输出图像与输入文本描述之间不完全匹配的问题,不仅能够使得编辑后的图像与输入的目标文本之间完全匹配,而且还可以使得编辑后的图像中与目标文本描述无关的区域保持原有效果,大大提高了图像编辑的准确性。
附图说明
[0017]图1是本申请实施例一提供的图像编辑方法的流程图;
[0018]图2是本专利技术实施例提供的一种图像编辑模型的整体架构图;
[0019]图3是本专利技术实施例提供的解码单元架构图;
[0020]图4为本专利技术实施例二提供的一种图像编辑装置的结构框图;
[0021]图5是本申请实施例四提供的一种电子设备的结构示意图。
具体实施方式
[0022]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0023]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0024]实施例一
[0025]图1是本申请实施例一提供的图像编辑方法的流程图,本实施例可适用于对图像进行编辑的场景,该方法可以由本申请实施例所提供的图像编辑装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于电子设备中。
[0026]如图1所示,所述图像编辑方法包括:
[0027]S110,获取待编辑的原始图像及与所述原始图像对应的目标文本;其中,所述目标
文本为用于对所述原始图像进行编辑操作的文本;
[0028]其中,所述待编辑的原始图像可以通过电子设备上的摄像头拍摄的原始图像,也可以是从电子设备本地图库中根据用户的点击操作选择的已存图像。与原始图像对应的目标文本可以理解为对原始图像进行编辑,以使得编辑后的图像在整体上满足其描述的文本。目标文本语言可以是英文,也可以是其他语言;本申请对此不做限定。例如,本实施例中目标文本可以是“A black bird with a red head.”,也可以是“一只头部是红色的黑鸟”。
[0029]S120,获取预先训练的图像编辑模型;其中,所述图像编辑模型包括卷积层、文本编码器、残差块及解码单元。
[0030]其中,预先训练的图像编辑模型可以是根据目标文本对原始图像进行编辑的机器学习模型。卷积层可以是卷积神经网络中利用卷积核对图像进行逐行或者跨行扫描,提取出图像特征的网络层级。卷积神经网络可以是一类包含卷积计算且具有深度结构的前馈神经网络。卷积核可以是经过神经网络的自我学习得来的一个矩阵参数。文本编码器可以用于对目标文本特征进行编码以实现对重要视觉信息的捕获。本实施例中的文本编码器可以是通过全局文本特征和单词特征分别度量图像与文本之间的相似性、计算匹配损失,共同组成的目标损失函数训练模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像编辑方法,其特征在于,所述方法包括:获取待编辑的原始图像及与所述原始图像对应的目标文本;其中,所述目标文本为用于对所述原始图像进行编辑操作的文本;获取预先训练的图像编辑模型;其中,所述图像编辑模型包括卷积层、文本编码器、残差块及解码单元;将所述原始图像输入至所述图像编辑模型中的卷积层,通过所述卷积层提取所述原始图像的全局图像特征,同时将所述目标文本输入至所述文本编码器,通过所述文本编码器提取所述目标文本的全局文本特征及单词特征;通过所述残差块对所述全局图像特征及所述全局文本特征进行融合,得到隐藏层图像特征;通过所述解码单元对所述隐藏层图像特征及所述单词特征进行整合,得到对所述原始图像编辑后的目标图像。2.根据权利要求1所述的方法,其特征在于,所述解码单元包括注意力模型及通道注意力机制单元;通过所述解码单元对所述隐藏层图像特征及所述单词特征进行整合,得到对所述原始图像编辑后的目标图像,包括:所述注意力模型基于所述单词特征对所述隐藏层图像特征进行注意力计算,得到第一图像;所述通道注意力机制单元基于所述隐藏层图像特征,确定所述第一图像的各个通道对应的权重值,并基于所述权重值对对应通道的通道特征进行加权处理得到第二图像,将所述第二图像作为对所述原始图像编辑后的目标图像。3.根据权利要求2所述的方法,其特征在于,所述解码单元还包括上采样单元及卷积层;在所述注意力模型基于所述单词特征对所述隐藏层图像特征进行注意力计算,得到第一图像之前,还包括:所述上采样单元对所述隐藏层图像特征进行上采样;通过所述解码单元中的卷积层对上采样后的隐藏层图像特征进行通道压缩。4.根据权利要求1所述的方法,其特征在于,所述图像编辑模型还包括无条件判别器和条件判别器;在得到对所述原始图像编辑后的目标图像之后,还包括:通过所述无条件判别器判断所述目标图像对所述原始图像的非编辑区域的保持效果;通过所述条件判别器基于所述全局文本特征判断所述目标图像的编辑效果。5.一种图像编辑装置,其特征在于,所述装置包括:原始图像及目标文本获取模块,用于获取待编辑的原始图像及与所述原始图像对应的目标文本;其中,所述目标文本为用于对所述原始图像进行编辑操作的文本;图像编辑模型获取模块,用于获取预先训练的图像编辑模型;其中,所述图像编辑模型包...

【专利技术属性】
技术研发人员:周作为
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1