一种基于ViT网络的人脸关键点检测模型的多阶段训练方法技术

技术编号:35537008 阅读:25 留言:0更新日期:2022-11-09 15:03
本发明专利技术公开了一种基于ViT网络的人脸关键点检测模型的多阶段训练方法,步骤1,在ViT网络的基础上构建双分支训练结构,包括MAE(MaskedAutoencoders)无监督训练分支与人脸关键点检测监督训练分支;利用伪标签训练数据集对构建的训练结构进行一阶段的训练,步骤2,二阶段训练,去除步骤1中MAE无监督训练分支,保留人脸关键点监督训练分支,加载预训练模型权重并使用手工标注的人脸关键点数据集进行监督训练获得人脸关键点检测模型。本发明专利技术基于ViT网络的人脸关键点检测模型对不同场景特别是遮挡状态下的人脸关键点具有较好的检测效果,通过多阶段训练方法使得基于ViT网络的模型对标注数据的数据量要求减少,且易于向不同场景迁移。场景迁移。场景迁移。

【技术实现步骤摘要】
一种基于ViT网络的人脸关键点检测模型的多阶段训练方法


[0001]本专利技术涉及计算机视觉、人工智能
,具体为一种基于ViT网络的人脸关键点检测模型的多阶段训练方法。

技术介绍

[0002]人脸关键点检测是计算机视觉的一个重要分支,用于定位人脸的各个关节点,如眼睛、鼻子、嘴巴等,根据检测到的关键点可以进一步理解到目标人脸的状态。目前的人脸关键点检测方法大部分基于卷积神经网络搭建,这类方法的关键点检测精度受遮挡如戴口罩、戴眼镜等影响较大。最近,由于由Transformer结构组成的ViT(Vision Transformer)网络在计算机视觉领域的优势越来越明显,其不同于卷积网络的全局注意力,使其在不同场景下都有较好的性能,鲁棒性强,因此基于ViT架构搭建人脸关键点检测网络。针对ViT网络架构存在的对数据量要求大,难收敛的问题,提出了一种基于ViT网络的人脸关键点检测模型的多阶段训练方法,降低ViT模型对标注数据量的要求同时保证模型的训练效果。

技术实现思路

[0003]本专利技术的目的在于提供一种基于ViT网络的人脸关键本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于ViT网络的人脸关键点检测模型的多阶段训练方法,其特征在于,包括以下步骤:步骤1,基于ViT网络构建双分支训练结构;S1、对于MAE无监督训练分支,在ViT网络后添加全连接层以及由Transformer块构成的解码器网络,解码器网络包含8个Transformer块,对于人脸关键点训练分支,在ViT网络后添加全局池化层以及多层感知器;S2、第一阶段的训练,利用伪标签数据集对双分支训练结构进行训练,其中伪标签数据集是采用PFLD人脸关键点检测模型对人脸图片进行预测构建的;S3、以训练的单次迭代过程为例,图片输入ViT网络前需经过图像块投影Patch Embedding与位置编码,图像块投影即将输入图像进行子图Patch分割;S4、输出特征传入MAE无监督训练分支,首先输入通过全连接层改变特征维数,改变后的特征维数为D
FC1
,则全连接层输出的特征B
×
K
×
D
FC1
;输出的特征使用一个可学习的张量Token根据采用索引Indices进行填充变为B
×
((H/h)*(W/w))
×
D
FC1
,并重新进行位置编码后送入解码网络,解码网络输出的特征再经过全连接层并重新还原为B
×
H
×
W
×
3的图片张量,并与输入图像进行像素级的MSE损失计算,其中损失计算仅在未被采用的图像块进行;S5、输入特征传入人脸关键点检测监督训练分支,特征经过全局池化层以及多层感知器MLP,其中多层感知器包含两层全连接层,第一层全连接层为隐层,第二层全连接层为预测层,预测层输出张量为B
×
landmar...

【专利技术属性】
技术研发人员:杨程光
申请(专利权)人:杭州登虹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1