一种适用于人脸识别的ViT模型优化方法技术

技术编号:37081115 阅读:79 留言:0更新日期:2023-03-29 19:56
本发明专利技术公开了一种适用于人脸识别的ViT模型优化方法,其包括:对人脸图像进行特征点检测,得到特征点坐标集;将所述人脸图像划分为多个图像块,基于多个所述图像块,得到其对应的特征点个数矩阵;将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵;将所述人脸图像与其对应的权值矩阵输入ViT网络,得到输入的人脸图像属于每个注册用户的概率。本发明专利技术能够利用权值来减少图像中非人脸部分对最后人脸识别的影响,具有更高的收敛速度和准确度。具有更高的收敛速度和准确度。具有更高的收敛速度和准确度。

【技术实现步骤摘要】
一种适用于人脸识别的ViT模型优化方法


[0001]本专利技术涉及人脸识别
,特别是一种适用于人脸识别的ViT模型优化方法。

技术介绍

[0002]人脸识别技术在刷脸支付、刑侦破案、人脸建模等场景下被广泛应用。从此看出,人脸识别技术具有很深刻的研究意义。谷歌于2017年6月在NIPS2017上发表了《Attention Is All You Need》,文中提出了应用于自然语言处理(NLP)领域中的Transformer。Transformer模型的主体框架是一个encoder

decoder结构,完全删除了卷积神经网络(RNN)的结构,由注意力机制和全连接层连接。由NLP领域的Transformer模型受到启发,谷歌于2020年11月在ICLR 2021发表了《An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale》中提出将Transformer直接运用到计算机视觉(CV)领域,证明Transformer在CV是可行的,称为Vision Transformer(ViT)。
[0003]ViT模型有三个大模块组成,分别是Linear Projection of Flattened Patches(Embedding)、Transformer Encoder、MLP Head。Linear Projection of Flattened Patches层用卷积操作将图像分块,将图像块转化成向量形式并与位置信息结合输入Transformer Encoder层。Transformer Encoder层中由L次Encoder Block堆叠而成,Encoder Block由Layer Norm、Multi

Head Attention、Dropout、MLP Block组成。MLP Head层用于数据分类。
[0004]ViT模型中Multi

Head Attention包含自注意力机制(Self

Attention)。自注意力机制中将图像块向量分别作为Query、Key

Value输入,将Query与Key作为输入计算注意力函数值,并与对应的Value加权输出。ViT模型对于人脸图像中的每个小图像块都相同对待,只观察块之间的相似程度,实际上在人脸识别这一类特殊问题中,不同图像块也会有重要程度的差别,包含人脸部分的图像块比背景图像块更加重要,此时引入人脸特征点来增强图像块之间的重要程度的差异。人脸特征点检测通常用于人脸识别能力的增强、人脸表情识别、AI换脸与美颜等等。人脸存在68个不同特征点,用于描述人脸轮廓、眼、鼻、嘴的位置,并且每个部分的用到的特征点索引值是固定的,例如1

17点用于描述人脸的轮廓、18

27点用于描述上眉等。
[0005]ViT可以用于任何图像的分类,但是由于图像的特征分布不同,ViT的分类准确度也会有差异,若使用原始的ViT模型处理人脸识别问题,准确度不能达到预期。受到传统的人脸识别算法的启发,可以将人脸特征点检测的方法与ViT模型结合,从而提高ViT模型在人脸任务上得识别准确度。

技术实现思路

[0006]针对此,本专利技术提供一种适用于人脸识别的ViT模型优化方法,可以利用权值来减少图像中非人脸部分对最后人脸识别的影响,具有更高的收敛速度和准确度。
[0007]本专利技术公开了一种适用于人脸识别的ViT模型优化方法,其包括以下步骤:
[0008]对人脸图像进行特征点检测,得到特征点坐标集;
[0009]将所述人脸图像划分为多个图像块,基于多个所述图像块,得到其对应的特征点个数矩阵;
[0010]将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵;
[0011]将所述人脸图像与其对应的权值矩阵输入ViT网络,得到输入的人脸图像属于每个注册用户的概率。
[0012]进一步地,所述对人脸图像进行特征点检测,得到特征点坐标集,包括:
[0013]设第i个人脸图像为Image
i
,对Image
i
进行特征点检测,得到Image
i
上各个人脸特征点的坐标集[[x0,y0],[x1,y1]...[x
n
,y
n
]]j
;其中,[x
j
,y
j
]表示第j个特征点的坐标。
[0014]进一步地,将所述人脸图像划分为多个图像块,基于所述图像块的位置信息,得到其对应的特征点个数矩阵,包括:
[0015]将Image
i
分成K个相同大小的图像块,分别计算求得第j个图像块x
j
中的人脸特征点个数num
j
,最终将其按照图像块在第i张人脸图像Image
i
中的位置组成特征点个数矩阵M
i
;其中,j的取值范围为1至K。
[0016]进一步地,将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵,包括:
[0017]将矩阵边缘零元素位置赋值成0.1,对矩阵中所有零元素位置视为空缺,对矩阵中零元素的位置进行插值,即首先分别对特征点个数矩阵M
i
的行向量进行线性插值得到矩阵MA
i
,再对其列向量进行线性插值得到矩阵MB
i
,最后取矩阵MA
i
和矩阵MB
i
的平均值,即为矩阵MC
i

[0018]将矩阵MC
i
中所有小于1的元素赋值为0,所有大于或等于1的元素赋值成1,从而得到最终的权值矩阵,记为WM
i

[0019]进一步地,所述将所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,包括:
[0020]将所述人脸图像与其对应的权值矩阵输入ViT网络,在网络中将权值矩阵与注意力机制中的注意力函数值相乘得到新的权重,ViT网络的输出是一个向量,用以表示所属每个注册用户的概率。
[0021]进一步地,所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,具体包括:
[0022]将所述人脸图像分块Image
i
输入Linear Projection of Flattened Patches模块,输出为z0;
[0023]将z0和权值矩阵WM
i
输入Transformer Encoder模块,MSA模块将WM
i
与注意力函数值相乘:
[0024]ViT网络最后的输出为z
l

=MSA(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于人脸识别的ViT模型优化方法,其特征在于,包括以下步骤:对人脸图像进行特征点检测,得到特征点坐标集;将所述人脸图像划分为多个图像块,基于多个所述图像块,得到其对应的特征点个数矩阵;将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵;将所述人脸图像与其对应的权值矩阵输入ViT网络,得到输入的人脸图像属于每个注册用户的概率。2.根据权利要求1所述的方法,其特征在于,所述对人脸图像进行特征点检测,得到特征点坐标集,包括:设第i个人脸图像为Image
i
,对Image
i
进行特征点检测,得到Image
i
上各个人脸特征点的坐标集[[x0,y0],[x1,y1]...[x
n
,y
n
]]
i
;其中,[x
j
,y
j
]表示第j个特征点的坐标。3.根据权利要求2所述的方法,其特征在于,将所述人脸图像划分为多个图像块,基于所述图像块的位置信息,得到其对应的特征点个数矩阵,包括:将Image
i
分成K个相同大小的图像块,分别计算求得第j个图像块x
j
中的人脸特征点个数num
j
,最终将其按照图像块在第i张人脸图像Image
i
中的位置组成特征点个数矩阵M
i
;其中,j的取值范围为1至K。4.根据权利要求3所述的方法,其特征在于,将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵,包括:将矩阵边缘零元素位置赋值成0.1,对矩阵中所有零元素位置视为空缺,对矩阵中零元素的位置进行插值,即首先分别对特征点个数矩阵M
i
的行向量进行线性插值得到矩阵MA
i
,再对其列向量进行线性插值得到矩阵MB
i
,最后取矩阵MA
i
和矩阵MB
i
的平均值,即为矩阵MC
i
;将矩阵MC
i
中所有小于1的元素赋值为0,所有大于或等于1的元素赋值成1,从而得到最终的权值矩阵,记为WM
i
。5.根据权利要求4所述的方法,其特征在于,所述将所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,包括:将所述人脸图像与其对应的权值矩阵输入ViT网络,在网络中将权值矩阵与注意力机制中的注意力函数值相乘得到新的权重,ViT网络的输出是一个向量,用以表示所属每个注册用户的概率。6.根据权利要求5所述的方法,其特征在于,所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,具体包括:将所述人脸图像分块Image
i
输入Linear Projection of Flattened Patches模块,输出为z0;将z0和权值矩阵WM
i...

【专利技术属性】
技术研发人员:徐雄王成刚张祎文
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1