人脸识别模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:26172615 阅读:17 留言:0更新日期:2020-10-31 13:51
本发明专利技术涉及人脸识别技术领域,提供一种人脸识别模型的训练方法、装置、电子设备和存储介质。所述人脸识别模型的训练方法包括:获得人脸识别模型的批处理数据量和训练集的类别数;基于随机数构建0‑1分布,生成列数为所述类别数的参数向量;根据所述参数向量调整人脸识别损失函数的固定缩放比例,获得可调缩放向量,并根据所述可调缩放向量获得行数为所述批处理数据量且列数为所述类别数的缩放矩阵;采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放;以及基于重缩放后的输出,监督训练所述人脸识别模型。本发明专利技术通过对人脸识别损失函数的固定缩放比例进行调整,生成能增大类中心向量之间距离的可调缩放向量,提升人脸识别模型的识别准确率。

【技术实现步骤摘要】
人脸识别模型的训练方法、装置、电子设备和存储介质
本专利技术涉及人脸识别
,具体地说,涉及一种人脸识别模型的训练方法、装置、电子设备和存储介质。
技术介绍
ArcFace(AdditiveAngularMarginLossforDeepFaceRecognition,深度人脸识别的加性角度间隔损失)是人脸识别领域的最新技术,其损失函数为ArcFaceloss(加性角度间隔损失函数),人脸识别模型的识别准确率主要取决于损失函数的设计。ArcFaceloss在传统人脸识别技术的基础上通过添加角度余量(angularmargin)提高类间可分性并加强类内紧度。但是,没有对特征缩放的半径大小做合理的设置,只取固定缩放比例,使所有的特征向量和类中心向量都变成相同的向量长度,即使所有的特征向量和类中心向量都缩放到半径为该固定缩放比例的超球体上。如果在保持添加的角度余量之后,同时维持特征向量和类中心向量之前的长度不变,那么缩放比例应该等于特征向量和类中心向量的长度之积,特征向量是根据输入数据和卷积层的参数决定的,其长度一直在变化;类中心向量是可学习参数,其长度也一直在变化。由此可见,要求特征向量和类中心向量的长度之积固定不变等于固定缩放比例并不是一个好的约束。需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本专利技术提供一种人脸识别模型的训练方法、装置、电子设备和存储介质,可以通过对人脸识别损失函数的固定缩放比例进行调整,生成能增大类中心向量之间距离的可调缩放向量,提升人脸识别模型的识别准确率。本专利技术的一个方面提供一种人脸识别模型的训练方法,包括步骤:获得人脸识别模型的批处理数据量和训练集的类别数;基于随机数构建0-1分布,生成列数为所述类别数的参数向量;根据所述参数向量调整人脸识别损失函数的固定缩放比例,获得可调缩放向量,并根据所述可调缩放向量获得行数为所述批处理数据量且列数为所述类别数的缩放矩阵;采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放;以及基于重缩放后的输出,监督训练所述人脸识别模型。在一些实施例中,所述人脸识别模型基于深度卷积神经网络构建,所述人脸识别损失函数是加性角度间隔损失函数。在一些实施例中,根据所述参数向量调整人脸识别损失函数的固定缩放比例的步骤包括:altered_s=S+selected_vector*S*2*(1-cosθj),其中,altered_s是所述可调缩放向量,所述可调缩放向量的列数为所述类别数,S是所述固定缩放比例,selected_vector是所述参数向量,θj是的相邻两类别的类中心向量的夹角,所述类中心向量根据所述人脸识别模型的输出获得。在一些实施例中,根据所述参数向量调整人脸识别损失函数的固定缩放比例的步骤包括:altered_s=S+selected_vector*S*2*(1-cos(θyi+m).mean(dim=0)),其中,altered_s是所述可调缩放向量,所述可调缩放向量的列数为所述类别数,S是所述固定缩放比例,selected_vector是所述参数向量,cos(θyi+m)是当前特征向量和目标类中心向量的夹角与一角度间隔值之和的余弦值,所述余弦值是行数为所述批处理数据量且列数为所述类别数的矩阵,所述当前特征向量根据所述人脸识别模型的输出获得。在一些实施例中,所述固定缩放比例的取值为:S=64,所述相邻两类别的类中心向量的夹角的取值为:θj=71.61÷360×2π弧度。在一些实施例中,基于随机数构建0-1分布,生成列数为所述类别数的参数向量的步骤包括:取一随机种子进行0与1的平均分布选择,生成所述参数向量;以及,将所述参数向量注册成为固定向量。在一些实施例中,采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放的步骤包括:altered-s’*cos(θyi+m),其中,altered_s’是所述缩放矩阵,所述缩放矩阵由所述可调缩放向量按行重复所述批处理数据量后形成,cos(θyi+m)是当前特征向量和目标类中心向量的夹角与一角度间隔值之和的余弦值,所述余弦值是行数为所述批处理数据量且列数为所述类别数的矩阵,所述当前特征向量根据所述人脸识别模型的输出获得。在一些实施例中,基于重缩放后的输出,监督训练所述人脸识别模型的步骤包括:根据重缩放后的输出,通过逻辑回归Softmax获得所述人脸识别模型的预测概率;以及,基于交叉熵损失函数获得所述预测概率与目标概率的差值,对所述人脸识别模型进行监督训练,直至所述人脸识别模型收敛于所述训练集。本专利技术的另一个方面提供一种人脸识别模型的训练装置,包括:初始数据获取模块,配置为获得人脸识别模型的批处理数据量和训练集的类别数;参数向量生成模块,配置为基于随机数构建0-1分布,生成列数为所述类别数的参数向量;缩放比例调整模块,配置为根据所述参数向量调整人脸识别损失函数的固定缩放比例,获得可调缩放向量,并根据所述可调缩放向量获得行数为所述批处理数据量且列数为所述类别数的缩放矩阵;特征重缩放模块,配置为采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放;以及监督训练模块,配置为基于重缩放后的输出,监督训练所述人脸识别模型。本专利技术的再一个方面提供一种电子设备,包括:一处理器;一存储器,所述存储器中存储有所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行上述任意实施例所述的人脸识别模型的训练方法的步骤。本专利技术的又一个方面提供一种计算机可读的存储介质,用于存储程序,其特征在于,所述程序被执行时实现上述任意实施例所述的人脸识别模型的训练方法的步骤。本专利技术与现有技术相比的有益效果至少包括:通过对人脸识别损失函数的固定缩放比例进行调整,生成能增大类中心向量之间距离的可调缩放向量,并使特征向量之间的欧式距离变大,即特征向量的距离更远,从而提升人脸识别模型的识别准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术实施例中人脸识别模型的训练方法的步骤示意图;图2示出本专利技术实施例中基于改进后的ArcFaceloss监督训练人脸识别模型的处理流程图;图3示出本专利技术实施例中获得可调缩放向量的原理示意图;图4示出本专利技术实施例的人脸识别模型与现有ArcFace的特征分布比对示意;图5示出本专利技术实施例中人脸识别模型的训练装置的模块示意图;图6示出本专利技术实施例中电子设备的结构示意图;以及图7示出本专利技术实施例中计算机可读的存储介质的结构示意图。...

【技术保护点】
1.一种人脸识别模型的训练方法,其特征在于,包括步骤:/n获得人脸识别模型的批处理数据量和训练集的类别数;/n基于随机数构建0-1分布,生成列数为所述类别数的参数向量;/n根据所述参数向量调整人脸识别损失函数的固定缩放比例,获得可调缩放向量,并根据所述可调缩放向量获得行数为所述批处理数据量且列数为所述类别数的缩放矩阵;/n采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放;以及/n基于重缩放后的输出,监督训练所述人脸识别模型。/n

【技术特征摘要】
1.一种人脸识别模型的训练方法,其特征在于,包括步骤:
获得人脸识别模型的批处理数据量和训练集的类别数;
基于随机数构建0-1分布,生成列数为所述类别数的参数向量;
根据所述参数向量调整人脸识别损失函数的固定缩放比例,获得可调缩放向量,并根据所述可调缩放向量获得行数为所述批处理数据量且列数为所述类别数的缩放矩阵;
采用所述缩放矩阵对所述人脸识别模型的输出进行重缩放;以及
基于重缩放后的输出,监督训练所述人脸识别模型。


2.如权利要求1所述的训练方法,其特征在于,所述人脸识别模型基于深度卷积神经网络构建,所述人脸识别损失函数是加性角度间隔损失函数。


3.如权利要求1所述的训练方法,其特征在于,根据所述参数向量调整人脸识别损失函数的固定缩放比例的步骤包括:
altered_s=S+selected_vector*S*2*(1-cosθj),
其中,altered_s是所述可调缩放向量,所述可调缩放向量的列数为所述类别数,S是所述固定缩放比例,selected_vector是所述参数向量,θj是相邻两类别的类中心向量的夹角,所述类中心向量根据所述人脸识别模型的输出获得。


4.如权利要求1所述的训练方法,其特征在于,根据所述参数向量调整人脸识别损失函数的固定缩放比例的步骤包括:
altered_s=S+selected_vector*S*2*(1-cos(θyi+m).mean(dim=0)),
其中,altered_s是所述可调缩放向量,所述可调缩放向量的列数为所述类别数,S是所述固定缩放比例,selected_vector是所述参数向量,cos(θyi+m)是当前特征向量和目标类中心向量的夹角与一角度间隔值之和的余弦值,所述余弦值是行数为所述批处理数据量且列数为所述类别数的矩阵,所述当前特征向量根据所述人脸识别模型的输出获得。


5.如权利要求3或4所述的训练方法,其特征在于,所述固定缩放比例的取值为:S=64,所述相邻两类别的类中心向量的夹角的取值为:θj=71.61÷360×2π弧度。


6.如权利要求1所述的训练方法,其特征在于,基于随机数构建0-1分布,生成列数为所述类...

【专利技术属性】
技术研发人员:沈涛
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1