【技术实现步骤摘要】
一种基于ViT网络的人脸关键点检测模型的多阶段训练方法
[0001]本专利技术涉及计算机视觉、人工智能
,具体为一种基于ViT网络的人脸关键点检测模型的多阶段训练方法。
技术介绍
[0002]人脸关键点检测是计算机视觉的一个重要分支,用于定位人脸的各个关节点,如眼睛、鼻子、嘴巴等,根据检测到的关键点可以进一步理解到目标人脸的状态。目前的人脸关键点检测方法大部分基于卷积神经网络搭建,这类方法的关键点检测精度受遮挡如戴口罩、戴眼镜等影响较大。最近,由于由Transformer结构组成的ViT(Vision Transformer)网络在计算机视觉领域的优势越来越明显,其不同于卷积网络的全局注意力,使其在不同场景下都有较好的性能,鲁棒性强,因此基于ViT架构搭建人脸关键点检测网络。针对ViT网络架构存在的对数据量要求大,难收敛的问题,提出了一种基于ViT网络的人脸关键点检测模型的多阶段训练方法,降低ViT模型对标注数据量的要求同时保证模型的训练效果。
技术实现思路
[0003]本专利技术的目的在于提供一种基于 ...
【技术保护点】
【技术特征摘要】
1.一种基于ViT网络的人脸关键点检测模型的多阶段训练方法,其特征在于,包括以下步骤:步骤1,基于ViT网络构建双分支训练结构;S1、对于MAE无监督训练分支,在ViT网络后添加全连接层以及由Transformer块构成的解码器网络,解码器网络包含8个Transformer块,对于人脸关键点训练分支,在ViT网络后添加全局池化层以及多层感知器;S2、第一阶段的训练,利用伪标签数据集对双分支训练结构进行训练,其中伪标签数据集是采用PFLD人脸关键点检测模型对人脸图片进行预测构建的;S3、以训练的单次迭代过程为例,图片输入ViT网络前需经过图像块投影Patch Embedding与位置编码,图像块投影即将输入图像进行子图Patch分割;S4、输出特征传入MAE无监督训练分支,首先输入通过全连接层改变特征维数,改变后的特征维数为D
FC1
,则全连接层输出的特征B
×
K
×
D
FC1
;输出的特征使用一个可学习的张量Token根据采用索引Indices进行填充变为B
×
((H/h)*(W/w))
×
D
FC1
,并重新进行位置编码后送入解码网络,解码网络输出的特征再经过全连接层并重新还原为B
×
H
×
W
×
3的图片张量,并与输入图像进行像素级的MSE损失计算,其中损失计算仅在未被采用的图像块进行;S5、输入特征传入人脸关键点检测监督训练分支,特征经过全局池化层以及多层感知器MLP,其中多层感知器包含两层全连接层,第一层全连接层为隐层,第二层全连接层为预测层,预测层输出张量为B
×
landmar...
【专利技术属性】
技术研发人员:杨程光,
申请(专利权)人:杭州登虹科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。