避免数据长尾问题的人脸识别模型的训练方法及装置制造方法及图纸

技术编号:36530489 阅读:16 留言:0更新日期:2023-02-01 16:12
本公开涉及人脸识别技术领域,提供了一种避免数据长尾问题的人脸识别模型的训练方法及装置。该方法包括:构建人脸识别模型;获取训练数据集,执行如下循环以对人脸识别模型进行多轮训练:利用动态采样器从训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集;将样本集输入特征提取网络,得到样本集对应的特征向量集;将特征向量集输入归一化网络,以对特征向量集中的特征向量进行归一化处理;根据经过归一化网络处理后的特征向量集,利用分类网络计算分类损失,利用对比网络计算对比损失;根据分类损失和对比损失更新人脸识别模型的模型参数,将当前轮训练对应的训练轮数加一,并在训练轮数等于预设轮数时,结束循环。环。环。

【技术实现步骤摘要】
避免数据长尾问题的人脸识别模型的训练方法及装置


[0001]本公开涉及人脸识别
,尤其涉及一种避免数据长尾问题的人脸识别模型的训练方法及装置。

技术介绍

[0002]人脸识别在实际应用场景下,通常会存在长尾效应,长尾效应又可以称之为数据长尾问题。长尾效应是指,训练数据集中的一少部分类别(头部类别)占据了绝大多数样本量,大多数的类别(尾部类别)仅有非常少的样本量。由于数据分布的严重不均衡,导致训练后的人脸识别模型会出现模型退化或过拟合的问题。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:由于数据长尾问题,训练后的人脸识别模型存在模型退化或过拟合的问题。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种避免数据长尾问题的人脸识别模型的训练方法、、装置、电子设备及计算机可读存储介质,以解决现有技术中,由于数据长尾问题,训练后的人脸识别模型存在模型退化或过拟合的问题。
[0005]本公开实施例的第一方面,提供了一种避免数据长尾问题的人脸识别模型的训练方法,包括:构建人脸识别模型,其中,人脸识别模型,包括:特征提取网络、归一化网络、分类网络和对比网络;获取训练数据集,执行如下循环以对人脸识别模型进行多轮训练:利用动态采样器从训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集;将样本集输入特征提取网络,得到样本集对应的特征向量集,其中,样本集中的一个样本对应特征向量集中的一条特征向量;将特征向量集输入归一化网络,以对特征向量集中的特征向量进行归一化处理;根据经过归一化网络处理后的特征向量集,利用分类网络计算分类损失,利用对比网络计算对比损失;根据分类损失和对比损失更新人脸识别模型的模型参数,将当前轮训练对应的训练轮数加一,并在训练轮数等于预设轮数时,结束循环。
[0006]本公开实施例的第二方面,提供了一种避免数据长尾问题的人脸识别模型的训练装置,包括:构建模块,被配置为构建人脸识别模型,其中,人脸识别模型,包括:特征提取网络、归一化网络、分类网络和对比网络;获取模块,被配置为获取训练数据集,执行如下循环以对人脸识别模型进行多轮训练:采样模块,被配置为利用动态采样器从训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集;特征提取模块,被配置为将样本集输入特征提取网络,得到样本集对应的特征向量集,其中,样本集中的一个样本对应特征向量集中的一条特征向量;归一化模块,被配置为将特征向量集输入归一化网络,以对特征向量集中的特征向量进行归一化处理;损失计算模块,被配置为根据经过归一化网络处理后的特征向量集,利用分类网络计算分类损失,利用对比网络计算对比损失;更新模块,被配置为根据分类损失和对比损失更新人脸识别模型的模型参数,将当前轮训练对应的训练轮数加一,并在训练轮数等于预设轮数时,结束循环。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过构建人脸识别模型,其中,人脸识别模型,包括:特征提取网络、归一化网络、分类网络和对比网络;获取训练数据集,执行如下循环以对人脸识别模型进行多轮训练:利用动态采样器从训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集;将样本集输入特征提取网络,得到样本集对应的特征向量集,其中,样本集中的一个样本对应特征向量集中的一条特征向量;将特征向量集输入归一化网络,以对特征向量集中的特征向量进行归一化处理;根据经过归一化网络处理后的特征向量集,利用分类网络计算分类损失,利用对比网络计算对比损失;根据分类损失和对比损失更新人脸识别模型的模型参数,将当前轮训练对应的训练轮数加一,并在训练轮数等于预设轮数时,结束循环,因此,采用上述技术手段,可以解决现有技术中,由于数据长尾问题,训练后的人脸识别模型存在模型退化或过拟合的问题,进而避免数据长尾问题造成的模型退化或过拟合。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例的应用场景的场景示意图;
[0012]图2是本公开实施例提供的一种避免数据长尾问题的人脸识别模型的训练方法的流程示意图;
[0013]图3是本公开实施例提供的一种避免数据长尾问题的人脸识别模型的训练装置的结构示意图;
[0014]图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0015]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0016]下面将结合附图详细说明根据本公开实施例的一种避免数据长尾问题的人脸识别模型的训练方法和装置。
[0017]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
[0018]终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为
硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0019]服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
[0020]需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种避免数据长尾问题的人脸识别模型的训练方法,其特征在于,包括:构建人脸识别模型,其中,所述人脸识别模型,包括:特征提取网络、归一化网络、分类网络和对比网络;获取训练数据集,执行如下循环以对所述人脸识别模型进行多轮训练:利用动态采样器从所述训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集;将所述样本集输入所述特征提取网络,得到所述样本集对应的特征向量集,其中,所述样本集中的一个样本对应所述特征向量集中的一条特征向量;将所述特征向量集输入所述归一化网络,以对所述特征向量集中的特征向量进行归一化处理;根据经过所述归一化网络处理后的特征向量集,利用所述分类网络计算分类损失,利用所述对比网络计算对比损失;根据所述分类损失和所述对比损失更新所述人脸识别模型的模型参数,将所述当前轮训练对应的训练轮数加一,并在所述训练轮数等于预设轮数时,结束循环。2.根据权利要求1所述的方法,其特征在于,所述利用动态采样器从所述训练数据集中进行当前轮训练的采样,得到当前轮训练所用的样本集,包括:基于所述当前轮训练对应的训练轮数和所述预设轮数,计算动态调节函数的函数值;基于所述函数值,分别计算出所述训练数据集中每种类别的样本的采样概率;基于每种类别的样本的采样概率,完成当前轮训练的采样,得到当前轮训练所用的样本集。3.根据权利要求2所述的方法,其特征在于,所述动态采样器,包括:征在于,所述动态采样器,包括:其中,j和i均为样本的类别,C为所述训练数据集中样本的所有类别的数量,l为所述当前轮训练对应的训练轮数,L为所述预设轮数,π为圆周率,g(l)为所述函数值,n
j
是第j类别的所有样本的数量,n
i
是第i类别的所有样本的数量,p
j
为第j类别的样本的采样概率。4.根据权利要求1所述的方法,其特征在于,所述根据经过所述归一化网络处理后的特征向量集,利用所述分类网络计算分类损失,包括:所述特征向量集,包括:第一向量集和第二向量集,其中,所述第一向量集中的每条特征向量均在所述第二向量集中存在对应的特征向量,所述第一向量集和所述第二向量集中两条对应的特征向量为同一标识号下的两个不同的样本所对应的特征向量;根据经过所述归一化网络处理后的第一向量集,利用所述分类网络计算第一分类损失,根据经过所述归一化网络处理后的第二向量集,利用所述分类网络计算第二分类损失,其中,所述分类损失,包括:所述第一分类损失和所述第二分类损失。5.根据权利要求1所述的方法,其特征在于,所述分类网络,包括:
其中,L
cls
为当前批次的分类损失,N为当前批次中样本的数量,当前轮训练包括多个批次,h为样本的序号,y
h
为第h个样本的类别,j为当前批次中除第h个样本的类别之外的任意一种类别,n为当前批次中样本的所有类别的数量,为第h个样本与正样本类中心的夹角,θ
j
为第h个样本与负样本类中心的夹角,s与M为预设超参数,c是调节系数,Ki是类别i的所有样本的数量,min()为取最小值函数。6.根据权利要求1所述的方法,其特征在于,所述对比网络,包括:其中,L
...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1