基于单张图片下三维人脸重建方法技术

技术编号:37705808 阅读:9 留言:0更新日期:2023-06-01 23:54
本发明专利技术提供了一种基于单张图片下三维人脸重建方法,使用数据增强方法,对图像进行随机旋转,随机调色,随机加噪声。将图像输入主干网络,学习特征,并通过损失函数进行回归运算。输出人脸UV位置图,最后将UV位置图渲染成3D人脸模型,并按照评估指标客观指标,并设计评估指标进行客观评估。解决了单张图片下三维人脸重建问题,具有非常理想的重建能力和精准度。具有非常理想的重建能力和精准度。具有非常理想的重建能力和精准度。

【技术实现步骤摘要】
基于单张图片下三维人脸重建方法


[0001]本专利技术属于图像处理
,特别是涉及一种基于单张图片下三维人脸重建方法。

技术介绍

[0002]近年来,3D人脸重建和人脸对齐已合并为一项任务:3D密集人脸对齐。它广泛用于各种视觉商业项目,例如视频游戏、电影效果、增强现实和虚拟现实,但通常需要在专业工作室中配备多台专业摄像机。来自单目图像的3D密集人脸对齐帮助人们消除对昂贵拍摄设备的需求。
[0003]传统人脸重建工作通常分解成两个子任务:预测人脸的三维点和预测人脸的六个自由度,其中人脸的三维点是三维重建时用来构造人脸五官的细节信息的,人脸的六个自由度用来构造人脸的朝向角度和相机距离等细节信息,两个子任务需要分别进行,鲁棒性差。
[0004]自从将深度学习引入3D人脸密集对齐任务以来,卷积神经网络以其高维特征的准确提取和权重共享的优势一直占据主导地位。最近引入的Transformer及其改进版本,采用self

attention机制来使得模型能够并行化训练且掌握全局信息,具有强大的全局建模能力。CNN具有平移等变性,即卷积产生一个二维映射来表明某些特征在输入中出现的位置,如果我们移动输入中的对象,它的表示也会在输出中移动同样的量。这一特性使得卷积块可以平移等变地处理图像特征,不管它们出现在图像的哪个地方。而CNN结合群论所演化出的群等变CNN,则同时具有平移等变性和旋转等变性,能够有效地提取各类转动物体的特征。例如日常工作中会接触到人脸识别等3D人脸密集对齐,通常以单摄像头进行正面人脸捕捉作为输入,其模型的输入是0
°
~30
°
的人脸,更注重头部绕滚动角旋转时的鲁棒。目前对于如何在0
°
~30
°
头部偏航角旋转的情况下优化人脸重建和对齐的研究较少。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种单张图片下三维人脸重建方法,引入了旋转等变CNN及Transformer结构,能够在能够在在0
°
~30
°
头部偏航角旋转的情况下,如何人脸重建和对齐,并保证模型鲁棒性。
[0006]为解决上述技术问题,本专利技术所采用的技术方案是,本专利技术提出一种基于单张图片下三维人脸重建方法,包括以下步骤:
[0007]S1、对图像进行数据增强;
[0008]S2、将图像输入主干网络,输出UV位置图;
[0009]S3、学习特征,并通过损失函数进行回归运算;
[0010]S4、提取UV位置图中关键点;
[0011]S5、UV位置图渲染成3D人脸模型。
[0012]具体的,S1中数据增强的方法为:
[0013]选择不同人物的不同角度的人脸图像,对这些训练图像进行随机旋转,随机随即调色,添加随机噪声;其中对训练图像分别在

90
°
~90
°
范围内随机旋转,在RGB通道上R、G、B值分别乘上0.6~1.4范围内的一个数值进行随机调色,添加随机噪声的方式为随机擦除两个区域。
[0014]具体的,S2的具体步骤如下:
[0015]网络采用编码器

解码器结构,网络接收大小为(3,256,256)的数据,通过设计的E2CNN残差网络结构的第0层到第3层,输出大小为(128,32,32)的特征,再通过Transformer的自注意力模块,学习图像的全局特征,并输出大小为(512,8,8)的特征,最后将特征(512,8,8)特征输入到由转置卷积层组成解码器中,输出一张(3,256,256)的UV位置图。
[0016]进一步的,所述编码器包含E2CNN0、E2CNN1、E2CNN2、E2CNN3、TR

ANSFORMER0、TRANSFORMER1、TRANSFORMER2,所述解码器部分包含17个反卷积层。
[0017]进一步的,E2CNN残差网络的残差块使用了跳跃链接,E2CNN块放置在编码器头部,用于捕捉人脸的局部特征,TRANSFORMER块放置在编码器尾部,用于捕捉人脸的全局特征,在E2CNN网络前部设置4个旋转等变残差卷积层,分别对特征图进行残差卷积操作,学习人脸的特征信息。
[0018]进一步的,S3中设计的损失函数Loss为加权L2函数,其公式如下:
[0019][0020]其中P(x,y)是指输出的UV图中,点(x,y)的像素值,P~(x,y)指groundtruth UV图点(x,y)的像素值,W(x,y)指点(x,y)的权。
[0021]进一步的,S4中的UV位置图记录了人脸超过5万个点的三维信息,包括轮廓信息和姿势信息。
[0022]进一步的,所述S5的具体步骤如下:
[0023]提取UV图通道信息,进行三维人脸重建,UV图中的点跟三维人脸的点是一一对应的,UV图有256
×
256个点,重建的三维人脸也有256
×
256个点,UV图与三维点空间信息关系如下:
[0024]U(u
i
,v
i
)=(x
i
,y
i
,z
i
)
[0025]其中(x
i
,y
i
,z
i
)是三维网格中顶点i的三维坐标,U(.,.)是UV图的二维表达,(u
i
,v
i
)是该点对应的二维UV坐标;
[0026]本专利技术的另一目的,是提供一种客观评估的方法;
[0027]设计评估指标进行客观评估,对于每一张测试图像,需要预测一张256
×
256
×
3的UV位置图;
[0028]采用归一化平均误差(NME)作为评价指标。NME是样本数为N的数据集中,第i个样本预测结果p
i
中的每一对对应点与groundtruth点之间的归一化平均欧氏距离;NME的归一化系数d定义为其中h和w是人脸的范围框的高宽;
[0029][0030]评估对象有两类:68个关键点的NME和45000个点的NME。
[0031]本专利技术的有益效果是:本专利技术为正面重建和对齐问题引入了两个新的神经网络组
件;(1)在编码器阶段的前部引入旋转等变CNN,其在正面围绕侧倾角旋转的情况下对高频特征的提取效果较好,(2)将Transformer放置在编码器的后半部分。解决了三维人脸重构问题,具有优秀的人脸重构和特征点对齐效果;利用随机调色模拟光照场景,增强模型光线不足或过曝具有鲁棒性。利用随机噪声模拟脸上的遮挡物,使模型对遮挡物具有鲁棒性。同时在本专利技术中,通过直接预测人脸三维点的空间坐标,端对端完成人脸重建,而无需分别完成子任务,优化了步骤,鲁棒性较强。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单张图片下三维人脸重建方法,其特征在于,包括以下步骤:S1、对图像进行数据增强;S2、将图像输入主干网络,输出UV位置图;S3、学习特征,并通过损失函数进行回归运算;S4、提取UV位置图中关键点;S5、UV位置图渲染成3D人脸模型。2.根据权利要求1所述的基于单张图片下三维人脸重建方法,其特征在于,所述S1中数据增强的方法具体为:选择不同人物的不同角度的人脸图像,对这些训练图像进行随机旋转,随机调色,添加随机噪声。3.根据权利要求2所述的基于单张图片下三维人脸重建方法,其特征在于,对训练图像分别在

90
°
~90
°
范围内随机旋转,在RGB通道上R、G、B值分别乘上0.6~1.4范围内的一个数值进行随机调色,添加随机噪声的方式为随机擦除两个区域。4.根据权利要求1所述的基于单张图片下三维人脸重建方法,其特征在于,S2具体步骤为:主干网络采用编码器

解码器结构,网络接收大小为(3,256,256)的数据,通过设计的E2CNN残差网络结构的第0层到第3层,输出大小为(128,32,32)的特征,再通过Transformer的自注意力模块,学习图像的全局特征,并输出大小为(512,8,8)的特征,最后将特征(512,8,8)特征输入到由转置卷积层组成解码器中,输出一张(3,256,256)的UV位置图。5.根据权利要求4所述的基于单张图片下三维人脸重建方法,其特征在于,所述E2CNN残差网络的残差块使用了跳跃链接,E2CNN块放置在编码器头部,用于捕捉人脸的局部特征,TRANSFORMER块放置在编码器尾部,用于捕捉人脸的全局特征,在E2CNN残差网络前部设置4个旋转等变残差卷积层,分别对特征图进行残差卷积操作,学习人脸的特征信息。6.根据权利要求4所述的基于单张图片下三维人脸重建方法,其特征在于,所述编码器包含E2CNN0、E2CNN1、E2CNN2、E2CNN3、TRANSFORMER0、TRANSFORMER1、TRANSFORM...

【专利技术属性】
技术研发人员:段清廖赟刘俊晖潘志轩邸一得
申请(专利权)人:云南览易网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1