图像迁移方法和图像迁移模型的训练方法、装置制造方法及图纸

技术编号:32670162 阅读:13 留言:0更新日期:2022-03-17 11:24
本公开提供了一种图像迁移方法和图像迁移模型的训练方法、装置、设备、介质,涉及人工智能领域,具体涉及深度学习和计算机视觉技术领域,可应用于人脸图像处理、人脸识别等场景。图像迁移方法包括:提取第一图像包括的第一对象的第一属性特征;根据针对第一图像的音频数据,提取第一对象包括的第一目标部位的第一形状特征;提取第二图像包括的第二对象的第一身份特征;以及基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像,第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。二对象。二对象。

【技术实现步骤摘要】
图像迁移方法和图像迁移模型的训练方法、装置


[0001]本公开涉及人工智能领域,具体涉及深度学习和计算机视觉
,可应用于人脸图像处理、人脸识别等场景。

技术介绍

[0002]随着深度学习与图像处理技术的发展,图像迁移技术可以应用于诸如人脸识别、视频制作和虚拟现实等多个领域中。
[0003]相关技术中,采用三维重建技术来实现图像迁移。该方法步骤复杂,计算量大。

技术实现思路

[0004]提供了一种降低计算量且提高迁移精度的图像迁移方法、图像迁移模型的训练方法、装置、电子设备和存储介质。
[0005]本公开的一个方面提供了一种图像迁移方法,包括:提取第一图像包括的第一对象的第一属性特征;根据针对第一图像的音频数据,提取第一对象包括的第一目标部位的第一形状特征;提取第二图像包括的第二对象的第一身份特征;以及基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像,该第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。
[0006]本公开的另一个方面提供了一种图像迁移模型的训练方法,其中,图像迁移模型包括第一编码网络、第二编码网络、第三编码网络和生成网络,训练方法包括:采用第一编码网络提取第三图像包括的第三对象的第二属性特征;根据针对第三图像的音频数据,采用第二编码网络提取第三对象包括的第一目标部位的第二形状特征;采用第三编码网络提取第四图像包括的第三对象的第二身份特征;基于第二属性特征、第二形状特征和第二身份特征,采用生成网络生成第二迁移图像;第二迁移图像包括具有第二属性特征和第二形状特征的第三对象;以及基于第二迁移图像和第三图像的差异,对图像迁移模型进行训练。
[0007]本公开的另一个方面提供了一种图像迁移装置,包括:第一属性提取模块,用于提取第一图像包括的第一对象的第一属性特征;第一形状提取模块,用于根据针对第一图像的音频数据,提取第一对象包括的第一目标部位的第一形状特征;第一身份提取模块,用于提取第二图像包括的第二对象的第一身份特征;以及第一图像生成模块,用于基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像,第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。
[0008]本公开的另一个方面提供了一种图像迁移模型的训练装置,其中,图像迁移模型包括第一编码网络、第二编码网络、第三编码网络和生成网络;训练装置包括:第二属性提取模块,用于采用第一编码网络提取第三图像包括的第三对象的第二属性特征;第二形状提取模块,用于根据针对第三图像的音频数据,采用第二编码网络提取第三对象包括的第一目标部位的第二形状特征;第二身份提取模块,用于采用第三编码网络提取第四图像包括的第三对象的第二身份特征;第二图像生成模块,用于基于第二属性特征、第二形状特征
和第二身份特征,采用生成网络生成第二迁移图像;第二迁移图像包括具有第二属性特征和第二形状特征的第三对象;以及模型训练模块,用于基于第二迁移图像和第三图像的差异,对图像迁移模型进行训练。
[0009]本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的图像迁移方法和/或图像迁移模型的训练方法。
[0010]根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的图像迁移方法和/或图像迁移模型的训练方法。
[0011]根据本公开的另一个方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的图像迁移方法和/或图像迁移模型的训练方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开实施例的图像迁移方法和图像迁移模型的训练方法、装置的应用场景示意图;。
[0015]图2是根据本公开实施例的图像迁移方法的流程示意图;
[0016]图3是根据本公开实施例的提取第一属性特征的原理示意图;
[0017]图4是根据本公开实施例的提取第一形状特征的原理示意图;
[0018]图5是根据本公开实施例的获得第一图像的原理示意图;
[0019]图6是根据本公开实施例的图像迁移方法的原理示意图;
[0020]图7是根据本公开实施例的图像迁移模型的训练方法的流程示意图;
[0021]图8是根据本公开实施例的图像迁移模型的训练方法的原理示意图;
[0022]图9是根据本公开实施例的图像迁移装置的结构框图;
[0023]图10是根据本公开实施例的图像迁移模型的训练装置的结构框图;以及
[0024]图11是用来实施例本公开实施例的图像迁移方法和/或图像迁移模型的训练方法的电子设备的结构框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]本公开提供了一种图像迁移方法,该方法包括属性提取阶段、形状提取阶段、身份提取阶段和图像生成阶段。在属性提取阶段中,提取第一图像包括的第一对象的第一属性
特征。在形状提取阶段中,根据针对第一图像的音频数据,提取第一对象包括的第一目标部位的第一形状特征。在身份提取阶段中,提取第二图像包括的第二对象的第一身份特征。在图像生成阶段中,基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像,该第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。
[0027]以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
[0028]图1是根据本公开实施例的图像迁移方法和图像迁移模型的训练方法、装置的应用场景图。
[0029]如图1所示,该实施例的应用场景100可以包括电子设备110,该电子设备110可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
[0030]该电子设备110例如可以对输入的第一人脸的图像120和第二人脸的图像130进行表情迁移,从而生成图像140。该图像140中的人脸为第一人脸,但该第一人脸具有第二人脸的表情和姿态。例如可以从第一人脸的图像120中提取身份特征,从第二人脸的图像130中提取属性特征,将该身份特征和属性特征融合后,经由生成网络可以生成图像140。其中,生成网络例如可以为生成式对抗网络(Genera本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像迁移方法,包括:提取第一图像包括的第一对象的第一属性特征;根据针对所述第一图像的音频数据,提取所述第一对象包括的第一目标部位的第一形状特征;提取第二图像包括的第二对象的第一身份特征;以及基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像,所述第一迁移图像包括具有所述第一属性特征和所述第一形状特征的第二对象。2.根据权利要求1所述的方法,其中,所述第一属性特征包括第一表情特征;所述提取第一图像包括的第一对象的第一属性特征包括:基于所述第一目标部位在所述第一图像中的第一位置信息,确定所述第一图像中除所述第一目标部位所在区域外其他区域的图像,获得第一子图像;以及根据所述第一子图像,提取所述第一表情特征。3.根据权利要求2所述的方法,其中,所述第一图像包括视频数据中的视频帧;所述根据所述第一图像中除所述第一子图像外的图像,提取所述第一表情特征包括:确定所述视频数据中包括所述第一对象的目标图像,所述目标图像的播放时间与所述第一图像的播放时间之间的差值小于预定值;确定所述目标图像中所述第一目标部位所在区域的图像,作为第二子图像;融合所述第二子图像和所述第一子图像,得到融合图像;以及根据所述融合图像,提取所述第一表情特征。4.根据权利要求1所述的方法,其中,所述第一属性特征包括第一姿态特征;所述提取第一图像包括的第一对象的第一属性特征包括:基于所述第一对象包括的第一目标部位和第二目标部位各自在所述第一图像中的位置信息,确定所述第一图像中除所述第一目标部位所在区域和第二目标部位所在区域外其他区域的图像,获得第三子图像;以及根据所述第三子图像,提取所述第一姿态特征。5.根据权利要求1所述的方法,其中,所述根据针对所述第一图像的音频数据;提取所述第一对象包括的第一目标部位的第一形状特征包括:基于所述第一目标部位在所述第一图像中的第一位置信息,确定所述第一图像中所述第一目标部位所在区域的图像,获得第四子图像;根据所述第四子图像,提取所述第一目标部位的形状特征,作为第一子特征;根据所述音频数据的音频特征,提取所述第一目标部位的形状特征,作为第二子特征;以及融合所述第一子特征和所述第二子特征,得到所述第一形状特征。6.根据权利要求1所述的方法,还包括:检测包括所述第一对象的模板图像,得到所述第一对象在所述模板图像中的第二位置信息;以及基于所述第二位置信息裁剪所述模板图像,获得所述第一图像。7.根据权利要求6所述的方法,其中,所述基于所述第二位置信息裁剪所述模板图像,获得所述第一图像包括:
基于所述第二位置信息裁剪所述模板图像,得到第一中间图像;对所述第一中间图像进行图像分割处理,得到所述第一中间图像中目标对象的第三位置信息;所述目标对象包括所述第一对象;基于所述第三位置信息,生成针对所述目标对象的掩膜图像;以及基于所述掩膜图像去除所述第一中间图像中的背景图像,得到所述第一图像。8.根据权利要求1~4中任一项所述的方法,其中,提取第一图像包括的第一对象的第一属性特征包括:对所述第一图像进行数据增强处理,得到增强后图像;以及基于所述增强后图像,提取所述第一属性特征。9.根据权利要求1所述的方法,还包括:检测包括所述第二对象的源图像,得到所述第二对象在所述源图像中的第四位置信息;以及基于所述第四位置信息裁剪所述源图像,获得所述第二图像。10.根据权利要求1~9中任一项所述的方法,其中,所述第二图像包括多个图像;所述提取第二图像包括的第二对象的第一身份特征包括:分别提取所述多个图像中每个图像包括的第二对象的身份特征,得到多个初始身份特征;以及确定所述多个初始身份特征的均值特征为所述第二对象的第一身份特征。11.根据权利要求1所述的方法,其中,所述基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像包括:融合所述第一属性特征、所述第一形状特征和所述第一身份特征,得到融合特征;以及将所述融合特征作为生成网络的输入,得到所述第一迁移图像。12.一种图像迁移模型的训练方法,其中,所述图像迁移模型包括第一编码网络、第二编码网络、第三编码网络和生成网络;所述方法包括:采用所述第一编码网络提取第三图像包括的第三对象的第二属性特征;根据针对所述第三图像的音频数据,采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征;采用所述第三编码网络提取第四图像包括的第三对象的第二身份特征;基于所述第二属性特征、所述第二形状特征和所述第二身份特征,采用所述生成网络生成第二迁移图像;所述第二迁移图像包括具有所述第二属性特征和所述第二形状特征的第三对象;以及基于所述第二迁移图像和所述第三图像的差异,对所述图像迁移模型进行训练。13.根据权利要求12所述的方法,其中,基于所述第二迁移图像和所述第三图像的差异,对所述图像迁移模型进行训练包括:基于所述第二迁移图像和所述第三图像之间的像素级差异,确定所述图像迁移模型的第一损失;将所述第二迁移图像和所述第三图像分别输入判别网络中,得到针对所述第二迁移图像的第一真值概率和针对所述第三图像的第二真值概率;基于所述第二迁移图像、所述第三图像、所述第一真值概率和所述第二真值概率,确定
所述图像迁移模型的生成对抗损失;以及基于所述第一损失和所述生成对抗损失,对所述图像迁移模型进行训练。14.根据权利要求13所述的方法,其中,基于所述第二迁移图像和所述第三图像的差异,对所述图像迁移模型进行训练还包括:基于所述第二迁移图像和所述第三图像经由特征提取网络提取得到的两个特征的差异,确定所述图像迁移模型的第二损失;以及基于所述第一损失、所述生成对抗损失和所述第二损失,对所述图像迁移模型进行训练。15.根据权利要求12所述的方法,其中,所述第二编码网络包括第一编码子网络、第二编码子网络和融合子网络;所述根据针对所述第三图像的音频数据,采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征包括:基于所述第一目标部位在所述第三图像中的第五位置信息,确定所述第三图像中所述第一目标部位所在区域的图像,获得第五子图像;根据所述第五子图像,采用所述第一编码子网络提取所述第一目标部位的形状特征,得到第三子特征;根据针对所述第三图像的音频数据的音频特征,采用所述第二编码子网络提取所述第一目标部位的形状特征,得到第四子特征;以及采用所述融合网络融合所述第三子特征和所述第四子特征,得到所述第二形状特征。16.根据权利要求15所述的方法,还包括在根据针对所述第三图像的音频数据,采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征之前:以样本数据中的图像样本作为所述第一编码子网络的输入,获得第五子特征;以样本数据中的音频样本的音频特征作为所述第二编码子网络的输入,获得第六子特征;以及根据所述第五子特征与所述第六子特征之间的差异,对所述第一编码子网络和所述第二编码子网络进行训练。17.根据权利要求16所述的方法,其中,所述样本数据包括第一样本和第二样本;所述第一样本包括第一图像样本和针对所述第一图像样本的第一音频样本;所述第二样本包括第二图像样本和除针对所述第二图像样本的音频外任意的音频样本;所述根据所述第五子特征与所述第六子特征之间的差异,对所述第一编码子网络和所述第二编码子网络进行训练包括:根据所述第五子特征和所述第六子特征之间的差异,确定预定损失函数的取值;以及根据所述预定损失函数的取值,对所述第一编码子网络和所述第二编码子网络进行训练,其中,所述预定损失函数的取值与第一差异正相关,且与第二差异负相关,其中,所述第一差异为输入所述第一图像样本获得的第五子特征与输入所述第一音频样本获得的第六子特征之间的差异;所述第二差异为输入所述第二图像样本获得的第五子特征与输入所述第二音频样本获得的第六子特征之间的差异。18.一种图像迁移装置,包括:第一属性提取模块,用于提取第一图像包括的第一对象的第一属性特征;
第一形状提取模块,用于根据针对所述第一图像的音频数据,提取所述第一对象包括的第一目标部位的第一形状特征;第一身份提取模块,用于提取第二图像包括的第二对象的第一身份特征;以及第一图像生成模块,用于基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像,所述第一迁移图像包括具有所述第一属性特征和所述第一形状特征的第二对象。19.根据权利要求18所述的装置,其中,所述第一属性特征包括第一表情特征;所述第一属性提取模块包括:第一图像确定子模块,用于基于所述第一目标...

【专利技术属性】
技术研发人员:梁柏荣周航郭知智洪智滨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1