【技术实现步骤摘要】
一种适用于人脸识别的ViT模型优化方法
[0001]本专利技术涉及人脸识别
,特别是一种适用于人脸识别的ViT模型优化方法。
技术介绍
[0002]人脸识别技术在刷脸支付、刑侦破案、人脸建模等场景下被广泛应用。从此看出,人脸识别技术具有很深刻的研究意义。谷歌于2017年6月在NIPS2017上发表了《Attention Is All You Need》,文中提出了应用于自然语言处理(NLP)领域中的Transformer。Transformer模型的主体框架是一个encoder
‑
decoder结构,完全删除了卷积神经网络(RNN)的结构,由注意力机制和全连接层连接。由NLP领域的Transformer模型受到启发,谷歌于2020年11月在ICLR 2021发表了《An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale》中提出将Transformer直接运用到计算机视觉(CV)领域,证明Transformer在CV是可行的,称为Vision Transformer(ViT)。
[0003]ViT模型有三个大模块组成,分别是Linear Projection of Flattened Patches(Embedding)、Transformer Encoder、MLP Head。Linear Projection of Flattened Patches层用卷积操作将图像分块,将图像块转化成向量形 ...
【技术保护点】
【技术特征摘要】
1.一种适用于人脸识别的ViT模型优化方法,其特征在于,包括以下步骤:对人脸图像进行特征点检测,得到特征点坐标集;将所述人脸图像划分为多个图像块,基于多个所述图像块,得到其对应的特征点个数矩阵;将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵;将所述人脸图像与其对应的权值矩阵输入ViT网络,得到输入的人脸图像属于每个注册用户的概率。2.根据权利要求1所述的方法,其特征在于,所述对人脸图像进行特征点检测,得到特征点坐标集,包括:设第i个人脸图像为Image
i
,对Image
i
进行特征点检测,得到Image
i
上各个人脸特征点的坐标集[[x0,y0],[x1,y1]...[x
n
,y
n
]]
i
;其中,[x
j
,y
j
]表示第j个特征点的坐标。3.根据权利要求2所述的方法,其特征在于,将所述人脸图像划分为多个图像块,基于所述图像块的位置信息,得到其对应的特征点个数矩阵,包括:将Image
i
分成K个相同大小的图像块,分别计算求得第j个图像块x
j
中的人脸特征点个数num
j
,最终将其按照图像块在第i张人脸图像Image
i
中的位置组成特征点个数矩阵M
i
;其中,j的取值范围为1至K。4.根据权利要求3所述的方法,其特征在于,将所述特征点个数矩阵边缘元素进行处理,通过对矩阵的零元素位置进行插值,得到不含零元素的权值矩阵,包括:将矩阵边缘零元素位置赋值成0.1,对矩阵中所有零元素位置视为空缺,对矩阵中零元素的位置进行插值,即首先分别对特征点个数矩阵M
i
的行向量进行线性插值得到矩阵MA
i
,再对其列向量进行线性插值得到矩阵MB
i
,最后取矩阵MA
i
和矩阵MB
i
的平均值,即为矩阵MC
i
;将矩阵MC
i
中所有小于1的元素赋值为0,所有大于或等于1的元素赋值成1,从而得到最终的权值矩阵,记为WM
i
。5.根据权利要求4所述的方法,其特征在于,所述将所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,包括:将所述人脸图像与其对应的权值矩阵输入ViT网络,在网络中将权值矩阵与注意力机制中的注意力函数值相乘得到新的权重,ViT网络的输出是一个向量,用以表示所属每个注册用户的概率。6.根据权利要求5所述的方法,其特征在于,所述人脸图像与其对应的权值矩阵输入ViT网络,得到人脸图像属于每个注册用户的概率,具体包括:将所述人脸图像分块Image
i
输入Linear Projection of Flattened Patches模块,输出为z0;将z0和权值矩阵WM
i...
【专利技术属性】
技术研发人员:徐雄,王成刚,张祎文,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。