图像迁移方法和图像迁移模型的训练方法、装置制造方法及图纸

技术编号：32670162 阅读：13 留言：0更新日期：2022-03-17 11:24

本公开提供了一种图像迁移方法和图像迁移模型的训练方法、装置、设备、介质，涉及人工智能领域，具体涉及深度学习和计算机视觉技术领域，可应用于人脸图像处理、人脸识别等场景。图像迁移方法包括：提取第一图像包括的第一对象的第一属性特征；根据针对第一图像的音频数据，提取第一对象包括的第一目标部位的第一形状特征；提取第二图像包括的第二对象的第一身份特征；以及基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像，第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。二对象。二对象。

全部详细技术资料下载

【技术实现步骤摘要】
图像迁移方法和图像迁移模型的训练方法、装置

[0001]本公开涉及人工智能领域，具体涉及深度学习和计算机视觉
，可应用于人脸图像处理、人脸识别等场景。

技术介绍

[0002]随着深度学习与图像处理技术的发展，图像迁移技术可以应用于诸如人脸识别、视频制作和虚拟现实等多个领域中。
[0003]相关技术中，采用三维重建技术来实现图像迁移。该方法步骤复杂，计算量大。

技术实现思路

[0004]提供了一种降低计算量且提高迁移精度的图像迁移方法、图像迁移模型的训练方法、装置、电子设备和存储介质。
[0005]本公开的一个方面提供了一种图像迁移方法，包括：提取第一图像包括的第一对象的第一属性特征；根据针对第一图像的音频数据，提取第一对象包括的第一目标部位的第一形状特征；提取第二图像包括的第二对象的第一身份特征；以及基于第一属性特征、第一形状特征和第一身份特征生成第一迁移图像，该第一迁移图像包括具有第一属性特征和第一形状特征的第二对象。
[0006]本公开的另一个方面提供了一种图像迁移模型的训练方法，其中，图像迁移模型包括第一编码网络、第二编码网络、第三编码网络和生成网络，训练方法包括：采用第一编码网络提取第三图像包括的第三对象的第二属性特征；根据针对第三图像的音频数据，采用第二编码网络提取第三对象包括的第一目标部位的第二形状特征；采用第三编码网络提取第四图像包括的第三对象的第二身份特征；基于第二属性特征、第二形状特征和第二身份特征，采用生成网络生成第二迁移图像；第二迁移图像包括具有第二...

【技术保护点】

【技术特征摘要】
1.一种图像迁移方法，包括：提取第一图像包括的第一对象的第一属性特征；根据针对所述第一图像的音频数据，提取所述第一对象包括的第一目标部位的第一形状特征；提取第二图像包括的第二对象的第一身份特征；以及基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像，所述第一迁移图像包括具有所述第一属性特征和所述第一形状特征的第二对象。2.根据权利要求1所述的方法，其中，所述第一属性特征包括第一表情特征；所述提取第一图像包括的第一对象的第一属性特征包括：基于所述第一目标部位在所述第一图像中的第一位置信息，确定所述第一图像中除所述第一目标部位所在区域外其他区域的图像，获得第一子图像；以及根据所述第一子图像，提取所述第一表情特征。3.根据权利要求2所述的方法，其中，所述第一图像包括视频数据中的视频帧；所述根据所述第一图像中除所述第一子图像外的图像，提取所述第一表情特征包括：确定所述视频数据中包括所述第一对象的目标图像，所述目标图像的播放时间与所述第一图像的播放时间之间的差值小于预定值；确定所述目标图像中所述第一目标部位所在区域的图像，作为第二子图像；融合所述第二子图像和所述第一子图像，得到融合图像；以及根据所述融合图像，提取所述第一表情特征。4.根据权利要求1所述的方法，其中，所述第一属性特征包括第一姿态特征；所述提取第一图像包括的第一对象的第一属性特征包括：基于所述第一对象包括的第一目标部位和第二目标部位各自在所述第一图像中的位置信息，确定所述第一图像中除所述第一目标部位所在区域和第二目标部位所在区域外其他区域的图像，获得第三子图像；以及根据所述第三子图像，提取所述第一姿态特征。5.根据权利要求1所述的方法，其中，所述根据针对所述第一图像的音频数据；提取所述第一对象包括的第一目标部位的第一形状特征包括：基于所述第一目标部位在所述第一图像中的第一位置信息，确定所述第一图像中所述第一目标部位所在区域的图像，获得第四子图像；根据所述第四子图像，提取所述第一目标部位的形状特征，作为第一子特征；根据所述音频数据的音频特征，提取所述第一目标部位的形状特征，作为第二子特征；以及融合所述第一子特征和所述第二子特征，得到所述第一形状特征。6.根据权利要求1所述的方法，还包括：检测包括所述第一对象的模板图像，得到所述第一对象在所述模板图像中的第二位置信息；以及基于所述第二位置信息裁剪所述模板图像，获得所述第一图像。7.根据权利要求6所述的方法，其中，所述基于所述第二位置信息裁剪所述模板图像，获得所述第一图像包括：
基于所述第二位置信息裁剪所述模板图像，得到第一中间图像；对所述第一中间图像进行图像分割处理，得到所述第一中间图像中目标对象的第三位置信息；所述目标对象包括所述第一对象；基于所述第三位置信息，生成针对所述目标对象的掩膜图像；以及基于所述掩膜图像去除所述第一中间图像中的背景图像，得到所述第一图像。8.根据权利要求1～4中任一项所述的方法，其中，提取第一图像包括的第一对象的第一属性特征包括：对所述第一图像进行数据增强处理，得到增强后图像；以及基于所述增强后图像，提取所述第一属性特征。9.根据权利要求1所述的方法，还包括：检测包括所述第二对象的源图像，得到所述第二对象在所述源图像中的第四位置信息；以及基于所述第四位置信息裁剪所述源图像，获得所述第二图像。10.根据权利要求1～9中任一项所述的方法，其中，所述第二图像包括多个图像；所述提取第二图像包括的第二对象的第一身份特征包括：分别提取所述多个图像中每个图像包括的第二对象的身份特征，得到多个初始身份特征；以及确定所述多个初始身份特征的均值特征为所述第二对象的第一身份特征。11.根据权利要求1所述的方法，其中，所述基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像包括：融合所述第一属性特征、所述第一形状特征和所述第一身份特征，得到融合特征；以及将所述融合特征作为生成网络的输入，得到所述第一迁移图像。12.一种图像迁移模型的训练方法，其中，所述图像迁移模型包括第一编码网络、第二编码网络、第三编码网络和生成网络；所述方法包括：采用所述第一编码网络提取第三图像包括的第三对象的第二属性特征；根据针对所述第三图像的音频数据，采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征；采用所述第三编码网络提取第四图像包括的第三对象的第二身份特征；基于所述第二属性特征、所述第二形状特征和所述第二身份特征，采用所述生成网络生成第二迁移图像；所述第二迁移图像包括具有所述第二属性特征和所述第二形状特征的第三对象；以及基于所述第二迁移图像和所述第三图像的差异，对所述图像迁移模型进行训练。13.根据权利要求12所述的方法，其中，基于所述第二迁移图像和所述第三图像的差异，对所述图像迁移模型进行训练包括：基于所述第二迁移图像和所述第三图像之间的像素级差异，确定所述图像迁移模型的第一损失；将所述第二迁移图像和所述第三图像分别输入判别网络中，得到针对所述第二迁移图像的第一真值概率和针对所述第三图像的第二真值概率；基于所述第二迁移图像、所述第三图像、所述第一真值概率和所述第二真值概率，确定
所述图像迁移模型的生成对抗损失；以及基于所述第一损失和所述生成对抗损失，对所述图像迁移模型进行训练。14.根据权利要求13所述的方法，其中，基于所述第二迁移图像和所述第三图像的差异，对所述图像迁移模型进行训练还包括：基于所述第二迁移图像和所述第三图像经由特征提取网络提取得到的两个特征的差异，确定所述图像迁移模型的第二损失；以及基于所述第一损失、所述生成对抗损失和所述第二损失，对所述图像迁移模型进行训练。15.根据权利要求12所述的方法，其中，所述第二编码网络包括第一编码子网络、第二编码子网络和融合子网络；所述根据针对所述第三图像的音频数据，采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征包括：基于所述第一目标部位在所述第三图像中的第五位置信息，确定所述第三图像中所述第一目标部位所在区域的图像，获得第五子图像；根据所述第五子图像，采用所述第一编码子网络提取所述第一目标部位的形状特征，得到第三子特征；根据针对所述第三图像的音频数据的音频特征，采用所述第二编码子网络提取所述第一目标部位的形状特征，得到第四子特征；以及采用所述融合网络融合所述第三子特征和所述第四子特征，得到所述第二形状特征。16.根据权利要求15所述的方法，还包括在根据针对所述第三图像的音频数据，采用所述第二编码网络提取所述第三对象包括的第一目标部位的第二形状特征之前：以样本数据中的图像样本作为所述第一编码子网络的输入，获得第五子特征；以样本数据中的音频样本的音频特征作为所述第二编码子网络的输入，获得第六子特征；以及根据所述第五子特征与所述第六子特征之间的差异，对所述第一编码子网络和所述第二编码子网络进行训练。17.根据权利要求16所述的方法，其中，所述样本数据包括第一样本和第二样本；所述第一样本包括第一图像样本和针对所述第一图像样本的第一音频样本；所述第二样本包括第二图像样本和除针对所述第二图像样本的音频外任意的音频样本；所述根据所述第五子特征与所述第六子特征之间的差异，对所述第一编码子网络和所述第二编码子网络进行训练包括：根据所述第五子特征和所述第六子特征之间的差异，确定预定损失函数的取值；以及根据所述预定损失函数的取值，对所述第一编码子网络和所述第二编码子网络进行训练，其中，所述预定损失函数的取值与第一差异正相关，且与第二差异负相关，其中，所述第一差异为输入所述第一图像样本获得的第五子特征与输入所述第一音频样本获得的第六子特征之间的差异；所述第二差异为输入所述第二图像样本获得的第五子特征与输入所述第二音频样本获得的第六子特征之间的差异。18.一种图像迁移装置，包括：第一属性提取模块，用于提取第一图像包括的第一对象的第一属性特征；
第一形状提取模块，用于根据针对所述第一图像的音频数据，提取所述第一对象包括的第一目标部位的第一形状特征；第一身份提取模块，用于提取第二图像包括的第二对象的第一身份特征；以及第一图像生成模块，用于基于所述第一属性特征、所述第一形状特征和所述第一身份特征生成第一迁移图像，所述第一迁移图像包括具有所述第一属性特征和所述第一形状特征的第二对象。19.根据权利要求18所述的装置，其中，所述第一属性特征包括第一表情特征；所述第一属性提取模块包括：第一图像确定子模块，用于基于所述第一目标...

【专利技术属性】
技术研发人员：梁柏荣，周航，郭知智，洪智滨，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人