模型训练方法、人脸识别方法、电子设备和存储介质技术

技术编号:38014126 阅读:8 留言:0更新日期:2023-06-30 10:37
本申请实施例涉及深度学习技术领域,公开了一种模型训练方法、人脸识别方法、电子设备和计算机可读存储介质,该方法包括:将一个批次的样本图像分别输入至第一模型和第二模型中,获取第一模型提取出的第一特征和第二模型提取出的第二特征,第一模型为已训练完成的重量型的模型,第二模型为待训练的轻量型的模型;根据各第一特征确定所述批次中ID的第一类间距离,并根据各第二特征确定所述批次中ID的第二类间距离;构建损失函数,所述损失函数包括L2损失项,以及基于第一类间距离和第二类间距离构建的类间损失项;根据所述损失函数训练第二模型至收敛,得到训练完成的第二模型,有效提升了学生模型的识别准确率和泛化能力。效提升了学生模型的识别准确率和泛化能力。效提升了学生模型的识别准确率和泛化能力。

【技术实现步骤摘要】
模型训练方法、人脸识别方法、电子设备和存储介质


[0001]本申请实施例涉及深度学习
,特别涉及一种模型训练方法、人脸识别方法、电子设备和存储介质。

技术介绍

[0002]随着人脸识别技术的飞速发展,其在智能家居、移动支付、门禁身份识别等嵌入式场景得到了广泛的应用,这些嵌入式终端的算力条件相当受限,无法支撑大型的人脸识别模型运行,只能支持运行轻量型的人脸识别模型,但轻量型的人脸识别模型识别精度较低,安全性也无法得到很好的保证。
[0003]业内通常使用模型剪枝、低比特量化、知识蒸馏等方式,基于高精度、高成熟度的大型的人脸识别模型,来获取有较高识别精度的轻量型的人脸识别模型。这其中的知识蒸馏方式比较成熟,即先训练一个识别能力好的大型网络作为教师模型(教师模型无法部署在嵌入式终端中),再结合教师模型,通过知识蒸馏的方式,训练一个可以部署在嵌入式终端中的小型网络,即学生模型。学生模型的识别能力与教师模型相近。
[0004]然而,业内通用的知识蒸馏方法大多基于特征层面,强调同一ID特征表达的一致性,这样训练出的学生模型泛化能力较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种模型训练方法、人脸识别方法、电子设备和存储介质,不仅提升了学生模型的识别准确率,同时还有效提升了学生模型的泛化能力。
[0006]为解决上述技术问题,本申请的实施例提供了一种模型训练方法,包括以下步骤:将一个批次的样本图像分别输入至第一模型和第二模型中,获取所述第一模型提取出的第一特征和所述第二模型提取出的第二特征;其中,所述第一模型为已训练完成的重量型的人脸识别模型,所述第二模型为待训练的轻量型的人脸识别模型;根据各所述第一特征确定所述批次中ID的第一类间距离,并根据各所述第二特征确定所述批次中ID的第二类间距离;构建损失函数,所述损失函数包括L2损失项,以及基于所述第一类间距离和所述第二类间距离构建的类间损失项;根据所述损失函数训练所述第二模型至收敛,得到训练完成的第二模型。
[0007]本申请的实施例还提供了一种人脸识别方法,包括以下步骤:将获取到的待识别人脸图像输入到训练好的人脸识别模型中,得到所述待识别人脸图像的人脸特征;根据所述待识别人脸图像的人脸特征确定所述待识别人脸图像所属的身份类别;其中,所述训练好的人脸识别模型为通过上述所述的模型训练方法训练完成的第二模型。
[0008]本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的模型训练方法,或者执行上述的人脸识别方法。
[0009]本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型训练方法,或者实现上述的人脸识别方法。
[0010]本申请的实施例提供的模型训练方法、电子设备和计算机可读存储介质,在对模型训练时,先获取第一模型和第二模型,第一模型为已训练完成的重量型的人脸识别模型,第二模型为待训练的轻量型的人脸识别模型,将个批次的样本图像分别输入至第一模型和第二模型中,获取第一模型提取出的第一特征和第二模型提取出的第二特征,再根据各第一特征确定所述批次中ID的第一类间距离,并根据各第二特征确定所述批次中ID的第二类间距离,随即构建损失函数,所述损失函数包括L2损失项,以及基于第一类间距离和第二类间距离构建的类间损失项,最后根据所述损失函数训练第二模型至收敛,得到训练完成的第二模型。考虑到业内通用的知识蒸馏方法仅仅是强调同一ID特征表达的一致性,训练出的学生模型泛化能力较差,而本申请的实施例,不仅考虑同一ID特征表达的一致性,还将类间距离引入约束项,使得学生模型学习到的知识更为全面,兼顾类内关系和类间关系,不仅提升了学生模型的识别准确率,同时还有效提升了学生模型的泛化能力。
[0011]另外,若所述第一模型的鲁棒程度满足预设标准,则所述类间损失项通过以下步骤构建:根据预设的排序函数,对所述第二类间距离与所述第二类间距离对应的第一类间距离之间的差值进行排序,得到第一序列;根据预设的选取规则,将所述第一序列中预设位置处的元素选取为困难样本;根据mean函数和所述困难样本在所述第一序列中对应的值,构建所述类间损失项。第一模型的鲁棒程度满足预设标准,说明该教师模型已训练的足够鲁棒,蒸馏时保证学生模型输出的特征无线接近教师模型输出的特征即可,从而可以基于学生模型的类间距离与教师模型的类间距离之间的差值排序来快速构建类间损失项,加速了第二模型迭代训练过程中的收敛速度,提升了模型训练的效率。
[0012]另外,所述根据预设的排序函数,对所述第二类间距离与所述第二类间距离对应的第一类间距离之间的差值进行排序,得到第一序列,通过以下公式实现:
[0013]NP1=Sort{RelU[similarity(x,y)
snp

similarity(x,y)
tnp
]},
[0014]其中,所述similarity(x,y)
snp
为所述第二类间距离,所述similarity(x,y)
tnp
为所述第二类间距离对应的第一类间距离,所述RelU(*)为线性整流函数,所述Sort(*)为所述预设的排序函数,所述NP1为所述第一序列;
[0015]所述根据mean函数和所述困难样本在所述第一序列中对应的值,构建所述类间损失项,通过以下公式实现:
[0016]loss2=mean(NP1[mask1]),mask1={NP1|where(MIN1≤NP1≤MAX1)},
[0017]MIN1=NP1[a*l
non

zero
],MAX1=NP1[b*l
non

zero
],
[0018]semihard_section=[a,b],
[0019]其中,所述semihard
section
为预设的超参数,所述a和所述b均大于0且小于1,所述a还小于所述b,所述l
non

zero
为所述NP1中非零元素的个数。
[0020]另外,若所述第一模型的鲁棒程度不满足预设标准,则所述类间损失项通过以下步骤构建:根据预设的排序函数对所述第一类间距离进行排序,得到第二序列,并根据所述第二类间距离和所述第二序列,得到第三序列;根据预设的选取规则,将所述第二序列和所述第三序列中预设位置处的元素选取为困难样本;根据mean函数、所述困难样本在所述第三序列中对应的值与所述困难样本在所述第二序列中对应的值之间的差值,构建所述类间
损失项。第一模型的鲁棒程度满足预设标准,说明该教师模型仍具有提升潜力,此时不完全信任教师模型,而是教师模型与学生模型共同学习,来训练学生模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:将一个批次的样本图像分别输入至第一模型和第二模型中,获取所述第一模型提取出的第一特征和所述第二模型提取出的第二特征;其中,所述第一模型为已训练完成的重量型的人脸识别模型,所述第二模型为待训练的轻量型的人脸识别模型;根据各所述第一特征确定所述批次中ID的第一类间距离,并根据各所述第二特征确定所述批次中ID的第二类间距离;构建损失函数,所述损失函数包括L2损失项,以及基于所述第一类间距离和所述第二类间距离构建的类间损失项;根据所述损失函数训练所述第二模型至收敛,得到训练完成的第二模型。2.根据权利要求1所述的模型训练方法,其特征在于,若所述第一模型的鲁棒程度满足预设标准,则所述类间损失项通过以下步骤构建:根据预设的排序函数,对所述第二类间距离与所述第二类间距离对应的第一类间距离之间的差值进行排序,得到第一序列;根据预设的选取规则,将所述第一序列中预设位置处的元素选取为困难样本;根据mean函数和所述困难样本在所述第一序列中对应的值,构建所述类间损失项。3.根据权利要求2所述的模型训练方法,其特征在于,所述根据预设的排序函数,对所述第二类间距离与所述第二类间距离对应的第一类间距离之间的差值进行排序,得到第一序列,通过以下公式实现:NP1=Sort{RelU[similarity(x,y)
snp

similarity(x,y)
tnp
]}其中,所述similarity(x,y)
snp
为所述第二类间距离,所述similarity(x,y)
tnp
为所述第二类间距离对应的第一类间距离,所述RelU(*)为线性整流函数,所述Sort(*)为所述预设的排序函数,所述NP1为所述第一序列;所述根据mean函数和所述困难样本在所述第一序列中对应的值,构建所述类间损失项,通过以下公式实现:loss2=mean(NP1[mask1]),mask1={NP1|where(MIN1≤NP1≤MAX1)}MIN1=NP
i
[a*l
non

zero
],MAX1=NP1[b*l
non

zero
]semihard_section=[a,b]其中,所述semihard_section为预设的超参数,所述a和所述b均大于0且小于1,所述a还小于所述b,所述l
non

zero
为所述NP1中非零元素的个数。4.根据权利要求1所述的模型训练方法,其特征在于,若所述第一模型的鲁棒程度不满足预设标准,则所述类间损失项通过以下步骤构建:根据预设的排序函数对所述第一类间距离进行排序,得到第二序列,并根据所述第二类间距离和所述第二序列,得到第三序列;根据预设的选取规则,将所述第二序列和所述第三序列中预设位置处的元素选取为困难样本;根据mean函数、所述困难样本在所述第三序列中对应的值与所述困难样本在所述第二序列中对应的值之间的差值,构建所述类间损失项。5.根据权利要求4所述的模型训练方法,其特征在于,所述根据预设的排序函数对所述第一类间距离进行排序,得到第二序列,并根据所述第二类间距离和所述第二序列,得到第
三序列,通过以下公式实现:Sorted
tnp
=Sort[similarity(x,y)
tnp
],Sorted
snp
=similarity(x,y)
snp
[Sorted
tnp
]其中,所述similarity(x,y)
tnp
为所述第一类间距离,所述Sort(*)为所述预设的排序函数,所述Sorted
tnp
为所述第二序列,所述similarity(x,y)
s...

【专利技术属性】
技术研发人员:胡长胜浦煜赵欲苗付贤强户磊
申请(专利权)人:北京的卢铭视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1