【技术实现步骤摘要】
图像处理方法、装置、设备及存储介质
本申请实施例涉及人工智能技术中的计算机视觉
,特别涉及一种图像处理方法、装置、设备及存储介质。
技术介绍
人脸表情编辑(也称为人脸表情变换)是指将一张人脸图像中的表情进行调整,得到另一张图像。例如,原始图像中的表情为微笑,经过人脸表情编辑后得到的目标图像中的表情为哭泣。在相关技术中,主要通过空间变换的方式将表情编码,通过对原始图像进行空间变换来得到目标图像。由于表情特征依赖于空间变换来编码进目标图像中,因此无法生成原始图像中没有出现的像素单元,例如,原始图像中没有牙齿则目标图像中也没有牙齿,这就导致无法生成与原始图像具有较大表情差异的目标图像,表情变换能力有限。
技术实现思路
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,可用于解决相关技术无法生成与原始图像具有较大表情差异的目标图像,表情变换能力有限的技术问题。所述技术方案如下:一方面,本申请实施例提供了一种图像处理方法,所述方法包括:基于注意力机制对输入图像进行编码处理,得到 ...
【技术保护点】
1.一种图像处理方法,其特征在于,所述方法包括:/n基于注意力机制对输入图像进行编码处理,得到所述输入图像的编码张量集合和注意力图集合;其中,所述编码张量集合包括n个编码张量,所述注意力图集合包括n个注意力图,所述n为大于1的整数;/n根据所述编码张量集合和所述注意力图集合,得到所述输入图像的编码结果,所述输入图像的编码结果中记录有所述输入图像中人脸的身份特征;/n对表情图像进行编码处理,得到所述表情图像的编码结果,所述表情图像的编码结果中记录有所述表情图像中人脸的表情特征;/n根据所述输入图像的编码结果和所述表情图像的编码结果,生成输出图像;其中,所述输出图像具有所述输入 ...
【技术特征摘要】 【专利技术属性】
1.一种图像处理方法,其特征在于,所述方法包括:
基于注意力机制对输入图像进行编码处理,得到所述输入图像的编码张量集合和注意力图集合;其中,所述编码张量集合包括n个编码张量,所述注意力图集合包括n个注意力图,所述n为大于1的整数;
根据所述编码张量集合和所述注意力图集合,得到所述输入图像的编码结果,所述输入图像的编码结果中记录有所述输入图像中人脸的身份特征;
对表情图像进行编码处理,得到所述表情图像的编码结果,所述表情图像的编码结果中记录有所述表情图像中人脸的表情特征;
根据所述输入图像的编码结果和所述表情图像的编码结果,生成输出图像;其中,所述输出图像具有所述输入图像的身份特征以及所述表情图像的表情特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述编码张量集合和所述注意力图集合,得到所述输入图像的编码结果,包括:
对于所述编码张量集合和所述注意力图集合中每一组对应的编码张量和注意力图,将所述编码张量和所述注意力图相乘,得到n个处理后编码张量;
其中,所述输入图像的编码结果包括所述n个处理后编码张量。
3.根据权利要求2所述的方法,其特征在于,所述表情图像的编码结果包括n个位移图;
所述根据所述输入图像的编码结果和所述表情图像的编码结果,生成输出图像,包括:
对于每一组对应的处理后编码张量和位移图,采用所述位移图对所述处理后编码张量做空间变换处理,得到n个变换后编码张量;
对所述n个变换后编码张量进行解码处理,生成所述输出图像。
4.根据权利要求1所述的方法,其特征在于,所述基于注意力机制对输入图像进行编码处理,得到所述输入图像的编码张量集合和注意力图集合之前,还包括:
调用人脸表情编辑模型,所述人脸表情编辑模型包括:第一编码器、第二编码器和解码器;其中,
所述第一编码器用于基于注意力机制对所述输入图像进行编码处理,得到所述输入图像的所述编码张量集合和所述注意力图集合;根据所述编码张量集合和所述注意力图集合,得到所述输入图像的编码结果;
所述第二编码器用于对表情图像进行编码处理,得到所述表情图像的编码结果;
所述解码器用于根据所述输入图像的编码结果和所述表情图像的编码结果,生成所述输出图像。
5.根据权利要求4所述的方法,其特征在于,所述人脸表情编辑模型是基于生成对抗网络构建的模型,所述人脸表情编辑模型包括生成器和判别器,所述生成器包括所述第一编码器、所述第二编码器和所述解码器;
所述人脸表情编辑模型的训练过程如下:
获取至少一个训练样本,每个所述训练样本是一个包括原始图像和目标图像的图像对,所述原始图像和所述目标图像是同一人脸的两张图像,且所述原始图像和所述目标图像具有不同的表情;其中,所述生成器用于根据所述原始图像和所述目标图像生成所述原始图像对应的输出图像,所述判别器用于判别所述目标图像和所述原始图像对应的输出图像是否为所述生成器生成的图像;
采用所述训练样本对所述人脸表情编辑模型进行训练。
6.根据权利要求4所述的方法,其特征在于,所述人脸表情编辑模型的损失函数Ltotal为:
其中,表示一阶距离损失,LLSGAN、LP和LO分表表示最小平方生成对抗网络损失、感知损失和重叠惩罚损失,λLSGAN、λP和λO分别表示三种损失对应的权重,所述重叠惩罚损失A表示注意力图集合,σ(a)表示关于a的sigmoid函数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述输入图像的编码结果和所述表情图像的编码结果,生成输出图像之后,还包括:
生成包括所述输出图像的视频或动态图片。
技术研发人员:孙天宇,黄浩智,刘威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。