一种基于渐进式去噪引导的人脸图像身份合成方法技术

技术编号:37843339 阅读:13 留言:0更新日期:2023-06-14 09:48
一种基于渐进式去噪引导的人脸图像身份合成方法,通过身份编码器充分提取身份特征,同时训练了一种渐进式身份去噪引导模型,过程中加入了身份引导和3D形状感知引导,使生成的人脸图像拥有更接近源图像帧身份和目标图像帧属性的特征。具有更好的稳定性,在百万分辨率条件下生成的图像仍然具有优势。率条件下生成的图像仍然具有优势。率条件下生成的图像仍然具有优势。

【技术实现步骤摘要】
一种基于渐进式去噪引导的人脸图像身份合成方法


[0001]本专利技术涉及人脸身份图像合成
,具体涉及一种基于渐进式去噪引导的人脸图像身份合成方法。

技术介绍

[0002]网络信息化时代的发展,使得深度学习领域中的人脸身份合成技术走进日常生活,最常见的是手机app中出现的换脸功能,可以将自己的身份转移到某些明星身上,满足自身的娱乐性。此外,人脸身份合成技术在商业领域也取得很大的成就,例如,男星布鲁斯
·
威利斯利用自己的身份信息,为手机公司拍摄一部出色的广告。传统的人脸身份合成技术经历了从图像编辑方法到3D建模方法,再到使用生成对抗网络(GAN)技术。传统的图像编辑和3D建模,有大量人工参与的痕迹,出现效率低且生成的图像质量不高的问题。另外,基于生成对抗的技术与传统方式相比,它无需太多人工的参与,仅需要建立神经网络模型通过大量学习,即可生成图像,但是这种方法在训练期间拥有不稳定的特性,导致生成图像的质量良莠不齐。

技术实现思路

[0003]本专利技术为了克服以上技术的不足,提供了一种在训练过程中加入身份特征和3D形状感知特征用于引导图像的生成,能够生成质量更稳定、更真实的人脸图像的方法。
[0004]本专利技术克服其技术问题所采用的技术方案是:
[0005]一种基于渐进式去噪引导的人脸图像身份合成方法,包括如下步骤:
[0006]a)对源视频V
s
进行提取,提取出源图像帧X
s
,对目标视频V
t
进行提取,提取出目标图像帧X
t

[0007]b)对图像帧X
s
和图像帧X
t
进行人脸检测并对齐,得到对齐后的源图像帧X
s
和目标图像帧X
t

[0008]c)建立身份编码器E
id
,将源图像帧X
s
输入到身份编码器E
id
中提取出源图像帧X
s
中的身份特征F
s

[0009]d)建立渐进式身份去噪引导模型G
ID
,将身份特征F
s
、目标图像帧X
t
及时间嵌入噪声T
temb
输入到渐进式身份去噪引导模型G
ID
中,输出得到噪声图像X
noise
,时间嵌入噪声T
temb
为符合N(0,1)的高斯噪声;
[0010]e)利用损失函数迭代渐进式身份去噪引导模型G
ID
,得到训练后的渐进式身份去噪引导模型G
ID

[0011]f)将训练后的渐进式身份去噪引导模型G
ID
输出的噪声图像X
noise
作为具有源图像帧X
s
和目标图像帧X
t
属性的人脸图像X
fake

[0012]进一步的,步骤a)中利用opencv图像处理算法读取源视频V
s
和目标视频V
t
,分别提取得到图像帧X
s
及图像帧X
t

[0013]进一步的,步骤b)中利用MTCNN算法对图像帧X
s
和图像帧X
t
进行人脸检测并对齐。
[0014]进一步的,步骤c)包括如下步骤:
[0015]c

1)身份编码器E
id
由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成,瓶颈残差块由第一分支和第二分支构成,瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,瓶颈残差块的第二分支依次由卷积层、池化层构成;
[0016]c

2)将源图像帧X
s
输入到身份编码器E
id
的第一卷积层中,输出得到特征F
s1
;c

3)将特征F
s1
输入到身份编码器E
id
的第一下采样残差块的第一分支中,输出得到特征F
s2
‑1,将特征F
s1
输入到身份编码器E
id
的第一下采样残差块的第二分支中,输出得到特征F
s2
‑2,将特征F
s2
‑1与特征F
s2
‑2相加得到混合特征F
s2

[0017]c

4)将混合特征F
s2
输入到身份编码器E
id
的第二下采样残差块的第一分支中,输出得到特征F
s3
‑1,将混合特征F
s2
输入到身份编码器E
id
的第二下采样残差块的第二分支中,输出得到特征F
s3
‑2,将特征F
s3
‑1与特征F
s3
‑2相加得到混合特征F
s3

[0018]c

5)将混合特征F
s3
输入到身份编码器E
id
的第三下采样残差块的第一分支中,输出得到特征F
s4
‑1,将混合特征F
s3
输入到身份编码器E
id
的第三下采样残差块的第二分支中,输出得到特征F
s4
‑2,将特征F
s4
‑1与特征F
s4
‑2相加得到混合特征F
s4

[0019]c

6)将混合特征F
s4
输入到身份编码器E
id
的瓶颈残差块的第一分支中,输出得到特征F
s5
‑1,将混合特征F
s4
输入到身份编码器E
id
的瓶颈残差块的第二分支中,输出得到特征F
s5
‑2,将特征F
s5
‑1与特征F
s5
‑2相加得到混合特征F
s5
;c

7)将混合特征F
s5
输入到身份编码器E
id
的第二卷积层中,输出得到身份特征F
s

[0020]优选的,步骤c

1)中第一卷积层的卷积核大小为3...

【技术保护点】

【技术特征摘要】
1.一种基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,包括如下步骤:a)对源视频V
s
进行提取,提取出图像帧X
s
,对目标视频V
t
进行提取,提取出图像帧X
t
;b)对图像帧X
s
和图像帧X
t
进行人脸检测并对齐,得到对齐后的源图像帧X
s
和目标图像帧X
t
;c)建立身份编码器E
id
,将源图像帧X
s
输入到身份编码器E
id
中提取出源图像帧X
s
中的身份特征F
s
;d)建立渐进式身份去噪引导模型G
ID
,将身份特征F
s
、目标图像帧X
t
及时间嵌入噪声T
temb
输入到渐进式身份去噪引导模型G
ID
中,输出得到噪声图像X
noise
,时间嵌入噪声T
temb
为符合N(0,1)的高斯噪声;e)利用损失函数迭代渐进式身份去噪引导模型G
ID
,得到训练后的渐进式身份去噪引导模型G
ID
;f)将训练后的渐进式身份去噪引导模型G
ID
输出的噪声图像X
noise
作为具有源图像帧X
s
和目标图像帧X
t
属性的人脸图像X
fake
。2.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤a)中利用opencv图像处理算法读取源视频V
s
和目标视频V
t
,分别提取得到图像帧X
s
及图像帧X
t
。3.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤b)中利用MTCNN算法对图像帧X
s
及图像帧X
t
进行人脸检测并对齐。4.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,步骤c)包括如下步骤:c

1)身份编码器E
id
由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成,瓶颈残差块由第一分支和第二分支构成,瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成,瓶颈残差块的第二分支依次由卷积层、池化层构成;c

2)将源图像帧X
s
输入到身份编码器E
id
的第一卷积层中,输出得到特征c

3)将特征输入到身份编码器E
id
的第一下采样残差块的第一分支中,输出得到特征将特征输入到身份编码器E
id
的第一下采样残差块的第二分支中,输出得到特征将特征与特征相加得到混合特征c

4)将混合特征输入到身份编码器E
id
的第二下采样残差块的第一分支中,输出得到特征将混合特征输入到身份编码器E
id
的第二下采样残差块的第二分支中,输出得到特征将特征与特征相加得到混合特征
c

5)将混合特征输入到身份编码器E
id
的第三下采样残差块的第一分支中,输出得到特征将混合特征输入到身份编码器E
id
的第三下采样残差块的第二分支中,输出得到特征将特征与特征相加得到混合特征c

6)将混合特征输入到身份编码器E
id
的瓶颈残差块的第一分支中,输出得到特征将混合特征输入到身份编码器E
id
的瓶颈残差块的第二分支中,输出得到特征将特征与特征相加得到混合特征c

7)将混合特征输入到身份编码器E
id
的第二卷积层中,输出得到身份特征F
s
。5.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于:步骤c

1)中第一卷积层的卷积核大小为3
×
3,步长为1,填充为1;步骤c

1)中第二卷积层的卷积核大小为4
×
4,步长为1,填充为0;步骤c

1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3
×
3,步长为1,填充为1;步骤c

1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1
×
1,步长为1,填充为0;步骤c

1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3
×
3,步长为1,填充为1;步骤c

1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1
×
1,步长为1,填充为0。6.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法,其特征在于,步骤d)包括如下步骤:d

1)渐进式身份去噪引导模型G
ID
由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成,中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成,第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成,第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成;d

2)将目标图像帧X
t
输入到渐进式身份去噪引导模型G
ID
的第一卷积层中,输出得到目标图像帧特征F
t
;d

3)将目标图像帧特征F
t
依次输入到渐进式身份去噪引导模型G
ID
的第一身份融合下
采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征将时间嵌入噪声T
temb
进行非线性归一化操作,将身份特征F
s
与非线性归一化后的时间嵌入噪声T
temb
相加得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征d

4)将目标图像帧特征依次输入到渐进式身份去噪引导模型G
ID
的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中,输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中,输出得到特征d

5)将目标图像帧特征依次输入到渐进式身份去噪引导模型G
ID
的...

【专利技术属性】
技术研发人员:刘瑞霞李子安舒明雷陈长芳单珂
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1