本公开涉及训练神经网络的方法、对象识别方法和设备以及介质。一种训练神经网络的方法包括:使用神经网络的初始模型从第一训练集中提取特征;根据第一训练集中的各个类的至少一个属性的分布来调整第一类和至少另一个类之间的与间距相关联的参数;根据调整后的与间距相关联的参数来计算损失;使用所计算的损失和反向传播算法来更新初始模型,以得到经过训练的模型。
Training neural network method, object recognition method, equipment and medium
【技术实现步骤摘要】
训练神经网络的方法、对象识别方法和设备以及介质
本公开总地涉及对象识别,具体地涉及训练神经网络以用于识别对象的领域。
技术介绍
Softmax损失函数被广泛用作对象识别,并且该函数可以保证特征的可分离性。然而,当类内变化可能大于类间差异时(例如使用具有数百万个类进行面部识别时),此时Softmax损失函数不能充分有效地区分特征。最近,主流方法是通过在Softmax损失函数中添加间距margin,即使用间距(margin)损失函数代替Softmax损失函数来加大学习的难度,逼迫模型不断学习更具区分性的特征,从而使得类间距离更大,类内距离更小。DengJ、GuoJ,ZafeiriouS在2018年的arxiv上发表的文章《ArcFace:AdditiveAngularMarginLossforDeepFaceRecognition》提出了一种几何可解释的间距损失函数,被称为ArcFace(cos(θ+m))。该间距损失函数基于L2规范化的权重和特征,直接最大化角度的决策边界(arc)。
技术实现思路
现有技术中的间距损失函数能够有效地区分特征。但是,现有技术中,间距是固定的,这导致难以处理长尾(longtail,即一些类有足够的样本用于训练,而对于大多数的类,只有极少数样本可用于训练)和低样本(lowshot,例如每个类包含一个样本)问题(这些类也被称之为小类)。这是由于,训练集很可能具有小类,小类具有很少的训练样本,所以小类的特征空间较窄。对于较大的类,由于具有充足的样本,因此其特征分布类似于特征空间中的真实分布,这将使得较大的类容易被识别。而对于小类,其特征分布有可能远远小于特征空间中的真实分布。因此,对于小类而言,如果使用较小的间距,则容易导致错误识别。图1B和图1C示出对小类进行训练(分类)和测试(识别)时使用较小间距和较大间距的示例。如图1B和图1C所示,特征空间中存在两个类,这两个类的权重向量分别是w1和w2,其中类w2是一个小类。实心圆形123表示类w1的训练样本,空心圆形122表示类w2的训练样本,实心星形121和空心星形124表示测试样本。如图1B所示,当间距m较小时,在进行测试时,原本应该属于小类w2的测试样本124有可能被错误地识别为属于相邻的大类w1。而当间距m增大时,如图1C所示,由于小类w2与大类w1充分地间隔开,所以测试样本124可以被正确地识别为属于小类w2。从图1B和图1C中可以看出,对于长尾和低样本问题,需要使用较大的间距来计算损失函数以训练神经网络模型。此外,对于某些特殊的类(比如类间距离小的类,诸如双胞胎的面部图像)的区分难度大,而一些具有较高重要性的类(比如频繁使用某个系统的人的面部图像)对识别的精度有较高的要求,此时使用固定间距不足以实现类的有效区分和对象的高精度识别。因此,需要一种能够根据训练集中的类的属性的分布来自适应地调整间距,以计算损失用于训练神经网络的自适应训练方法。根据本公开的一方面,提供了一种训练神经网络的方法,该方法包括:使用神经网络的初始模型从第一训练集中提取特征;根据第一训练集中的各个类的至少一个属性的分布来调整第一类和至少另一个类之间的与间距相关联的参数;根据调整后的与间距相关联的参数来计算损失;使用所计算的损失和反向传播算法来更新初始模型,以得到经过训练的模型。根据本公开的另一方面,提供了一种训练多个神经网络模型的方法,该方法包括:从基础训练集得到多个不同的训练集;针对多个不同的训练集中的每一个,使用根据本公开的实施例中的任一个或任何组合所描述的方法进行训练,以得到多个不同的经过训练的模型。根据本公开的另一方面,提供了一种对象识别方法,该方法包括使用根据本公开的实施例中任一个所描述的训练神经网络的方法获得的经过训练的模型来进行对象识别。根据本公开的又一方面,提供了一种训练神经网络的设备,该设备包括处理器和存储器,存储器存储有计算机程序,计算机程序当被处理器执行时使处理器执行根据本公开的实施例中的任一个或任何组合所述的方法的步骤。根据本公开的又一方面,提供了一种对象识别设备,该设备包括:根据本公开的实施例所描述的训练神经网络的设备;特征提取装置,被配置为使用经过训练的模型从输入的对象中提取特征;以及相似度计算装置,被配置为计算所提取的特征和真实对象的特征之间的相似度。根据本公开的又一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序当被处理器执行时使处理器执行根据本公开的实施例中的任一个或任何组合所描述的方法的步骤。附图说明下面结合具体的实施例,并参照附图,对本公开的实施方式的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1A示出根据本公开的第一实施例的训练神经网络的方法的流程图。图1B示出对小类进行训练和测试时使用较小间距的示意图。图1C示出对小类进行训练和测试时使用较大间距的示意图。图2示出根据本公开的第一实施例的训练方法的一个示例的框图。图3示出根据本公开的第二实施例的使用类的样本数目分布来动态调整间距的流程图。图4示出第二实施例的一个具体示例。图5示出根据本公开的第三实施例的函数的一个示例的示意图。图6A示出根据本公开的第四实施例的深度Q学习网络的示意图。图6B示出根据本公开的第四实施例的通过使用DQN调整间距的训练方法的示例的流程图。图6C示出根据本公开的第四实施例的使用预先训练的神经网络收集样本的方法的示例的流程图。图6D示出根据本公开的第四实施例的使用DQN调整间距的流程图。图6E示出根据本公开的第四实施例的使用调整后的间距计算损失的方法的示例的流程图。图7A示出根据本公开的第五实施例的使用近邻分布进行特征增广的方法的流程图的示例。图7B示出根据本公开的第五实施例的使用近邻分布进行特征增广的方法的示意图。图8A示出根据本公开的第六实施例的使用高斯分布进行特征增广的方法的流程图。图8B示出根据本公开的第六实施例的使用高斯分布进行特征增广的方法的示意图。图9A示出根据本公开的第七实施例的训练神经网络的方法的一个示例的流程图。图9B示出根据本公开的第七实施例的训练神经网络的方法的另一示例的流程图。图9C示出根据本公开的第七实施例的训练神经网络的方法的另一示例的流程图。图10A示出根据本公开的第八实施例的根据训练集中的噪声类型和间距来计算损失的方法的示例的流程图。图10B示出根据本公开的第七实施例和第八实施例的组合的训练方法的示例的示意图。图11示出特征空间中的类的示意图。图12示出根据本公开的第九实施例的通过Arcface训练的神经网络中最后一个全连接层的权重的内积以及随机向量的内积的分布的示意图。图13示出根据本公开的第九实施例的根据正交本文档来自技高网...
【技术保护点】
1.一种训练神经网络的方法,其特征在于包括:/n使用神经网络的初始模型从第一训练集中提取特征;/n根据第一训练集中的各个类的至少一个属性的分布来调整第一类和至少另一个类之间的与间距相关联的参数;/n根据调整后的与间距相关联的参数来计算损失;/n使用所计算的损失和反向传播算法来更新初始模型,以得到经过训练的模型。/n
【技术特征摘要】
1.一种训练神经网络的方法,其特征在于包括:
使用神经网络的初始模型从第一训练集中提取特征;
根据第一训练集中的各个类的至少一个属性的分布来调整第一类和至少另一个类之间的与间距相关联的参数;
根据调整后的与间距相关联的参数来计算损失;
使用所计算的损失和反向传播算法来更新初始模型,以得到经过训练的模型。
2.根据权利要求1所述的方法,其中所述至少一个属性是第一训练集中的类的样本数量。
3.根据权利要求1-2中任一项所述的方法,其中所述与间距相关联的参数是间距本身,并且所述方法包括,使用间距损失函数来计算损失。
4.根据权利要求3所述的方法,其中所述调整包括:根据第一类的样本数量直接确定间距使得所述间距与所述样本数量负相关。
5.根据权利要求3所述的方法,其中所述调整包括:将间距设置为第一类的样本数量的函数,使得间距与所述样本数量负相关。
6.根据权利要求3所述的方法,其中所述调整包括:使用Q-学习函数,根据当前间距、类的样本数量、类内方差和类间距离来确定间距的变化趋势。
7.根据权利要求3所述的方法,其中所述调整包括:通过特征增广增大第一类的样本数量来调整间距。
8.根据权利要求7所述的方法,其中使用近邻分布进行特征增广。
9.根据权利要求7所述的方法,其中使用高斯分布进行特征增广。
10.根据权利要求1所述的方法,其中所述属性是第一训练集中的类的难度。
11.根据权利要求10所述的方法,其中所述难度能够手动确定,或者基于所述第一类与至少另一个类之间的类中心距离或类中心相似度确定。
12.根据权利要求10-11中任一项所述的方法,其中所述与间距相关联的参数是类中心相似度,并且所述方法包括,对难度高于预定阈值的类,根据类中心相似度来计算损失。
13.根据权利要求1所述的方法,其中所述属性是第一训练集中的类的重要性。
【专利技术属性】
技术研发人员:黄耀海,陶训强,彭健腾,邓伟洪,胡佳妮,
申请(专利权)人:佳能株式会社,北京邮电大学,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。