训练样本的筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:36213827 阅读:10 留言:0更新日期:2023-01-04 12:10
本申请提供一种训练样本的筛选方法、装置、设备及存储介质,涉及深度学习领域。该筛选方法包括:获取待处理的训练样本集;待处理的训练样本集用于训练深度学习模型;利用属性分类模型对待处理的训练样本集进行层次聚类,构建分类树;属性分类模型用于识别待处理的训练样本的目标属性;目标属性用于表征待处理的训练样本对深度学习模型的特征学习的影响种类;根据分类树将待处理的训练样本集划分为N个类别;从N个类别中的每个类别选取出一个样本子集,得到N个样本子集;样本子集是对一个类别中的困难样本进行主动学习得到的;将N个样本子集合并得到第一训练样本集。该方法用于解决深度学习模型的迭代效率低的问题。度学习模型的迭代效率低的问题。度学习模型的迭代效率低的问题。

【技术实现步骤摘要】
训练样本的筛选方法、装置、设备及存储介质


[0001]本申请涉及深度学习领域,尤其涉及一种训练样本的筛选方法、装置、设备及存储介质。

技术介绍

[0002]深度学习模型(例如目标检测模型)在实际的工业应用中,随着项目的不断迭代,往往会积累大量的训练样本。训练样本可以包括简单样本和困难样本。这些大量的训练样本中,往往存在比例失衡的情况,例如,简单样本占据了训练样本的极大部分,困难样本占据了训练样本的极小部分。利用这样比例失衡的训练样本会使得深度学习模型仅学习到了简单样本的特征,而无法学习到困难样本的特征。
[0003]为了解决训练样本的比例失衡的情况,可以增加困难样本的数量,以实现训练样本的比例平衡。例如,对困难样本重采样等。
[0004]但是,通过增加困难样本的数量来平衡训练样本的比例会导致训练样本的数量进一步增加,降低目标检测模型的迭代开发效率。

技术实现思路

[0005]基于上述技术问题,本申请提供一种训练样本的筛选方法、装置、设备及存储介质,可以通过构建属性分类模型对训练样本进行分类,并调整各个类别下的样本比例,在均衡训练样本比例的同时实现对训练样本的瘦身。
[0006]第一方面,本申请提供一种训练样本的筛选方法,该方法包括:获取待处理的训练样本集;待处理的训练样本集用于训练深度学习模型;待处理的训练样本集包括多个待处理的训练样本;利用属性分类模型对待处理的训练样本集进行层次聚类,构建分类树;属性分类模型用于识别待处理的训练样本的目标属性;目标属性用于表征待处理的训练样本对深度学习模型的特征学习的影响种类;根据分类树将待处理的训练样本集划分为N个类别;每个类别包括至少一个待处理的训练样本;N为大于1的整数;从N个类别中的每个类别选取出一个样本子集,得到N个样本子集;样本子集是对一个类别中的困难样本进行主动学习得到的;将N个样本子集合并得到第一训练样本集。
[0007]应理解,不同目标属性的待处理的训练样本对目标检测模型产生的特征学习的偏向影响不同。本申请实施例提供的训练样本的筛选方法,可以利用属性分类模型对待处理的训练样本集进行层次聚类,将待处理的训练样本划分为不同类别,并从不同类别的待处理的训练样本中筛选出对困难样本进行主动学习得到的样本子集,从而在各个类别均衡的情况下对待处理的训练样本集进行瘦身的同时增加困难样本的比例,提升模型性能,减少模型训练迭代耗时。
[0008]可选地,每个待处理的训练样本均包括真值标签;在从所述N个类别中的每个类别按照预设的第一比例随机选取出第一训练样本集之后,该方法还包括:基于第一训练样本集,对目标检测模型进行训练直至收敛;将N个类别中除了第一训练样本集之外的剩余待处
理的训练样本输入训练至收敛的目标检测模型,得到每个剩余待处理的训练样本的检测值;在N个类别的每个类别中选取M个检测值与真值标签之间的重合度小于预设阈值的剩余待处理的训练样本,加入第一训练样本集;M为自然数。
[0009]一种可能的实现方式中,针对N个类别中的第一类别,从N个类别中的每个类别选取出一个样本子集,包括:从第一类别中按照第一比例随机选取出初始训练样本集;基于初始训练样本集,对深度学习模型进行训练直至收敛;基于训练至收敛的深度学习模型,从第一类别中除了初始训练样本集之外的剩余待处理的训练样本选取困难样本;将选取出的困难样本加入初始训练样本集,得到样本子集。
[0010]一种可能的实现方式中,每个待处理的训练样本均包括真值标签;基于训练至收敛的深度学习模型,从第一类别中除了初始训练样本集之外的剩余待处理的训练样本选取困难样本,包括:将第一类别中除了初始训练样本集之外的剩余待处理的训练样本输入训练至收敛的深度学习模型,得到每个剩余待处理的训练样本的预测值;在剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本;M为自然数。
[0011]一种可能的实现方式中,在剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本,包括:按照预测值与真值标签之间的重合度从小到大的顺序,将剩余待处理的训练样本排序,得到重合度排序结果;选取出重合度排序结果中重合度小于预设阈值的前M%个剩余待处理的训练样本。
[0012]可选地,预测值与真值标签之间的重合度为交并比。
[0013]可选地,分类树包括多层;每一层包括多个树节点;每一个树节点包括一个或多个待处理的训练样本;同一层的不同的树节点中的待处理的训练样本的目标属性不同。根据分类树将待处理的训练样本集划分为N个类别,包括:选取分类树中的目标层;目标层为分类树的多层中的任意一层;根据目标层的不同的树节点的目标属性,将待处理的训练样本集划分为N个类别。
[0014]应理解,分类树中的不同层的分类粒度不同,管理人员可以通过选取不同的目标层以实现按照不同的粒度对待处理的训练样本集的划分,从而提高训练样本的筛选过程的灵活性。
[0015]可选地,属性分类模型是基于属性训练样本集对预设的初始模型进行训练得到的;属性训练样本集包括多个属性训练样本;每一个属性训练样本集包括待处理的训练样本和与待处理的训练样本对应的标签;标签为目标属性。
[0016]第二方面,本申请提供一种训练样本的筛选装置,该训练样本的筛选装置包括用于上述第一方面所述的方法的各个模块。
[0017]第三方面,本申请提供一种属性分类模型的训练方法,该方法包括:获取属性训练样本集;属性训练样本集包括多个属性训练样本;每一个属性训练样本集包括一个待处理的训练样本和与待处理的训练样本对应的标签;标签为目标属性;待处理的训练样本用于训练目标检测模型;目标属性用于表征待处理的训练样本对目标检测模型的特征学习的影响种类;基于属性训练样本集,对预设的初始模型进行训练,得到属性分类模型。
[0018]第四方面,本申请提供一种属性分类模型的训练装置,该属性分类模型的训练装置包括用于上述第三方面所述的方法的各个模块。
[0019]第五方面,本申请提供一种计算机程序产品,当该计算机程序产品在计算机上运
行时,使得计算机执行上述第一方面或第三方面所述相关方法的步骤,以实现上述第一方面或第三方面所述的方法。
[0020]第六方面,本申请提供一种电子设备,该电子设备包括处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得电子设备实现上述第一方面或第三方面所述的方法。
[0021]第七方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括:计算机软件指令;当计算机软件指令在电子设备中运行时,使得电子设备实现上述第一方面或第三方面所述的方法。
[0022]第八方面,本申请提供一种芯片,该芯片包括处理器和接口,处理器通过接口与存储器耦合,当处理器执行存储器中的计算机程序或电子设备执行指令时,使得上述第一方面或第三方面所述的方法被执行。
[0023]上述第二方面至第八方面的有益效果可以参照第一方面所述,不再赘述。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本的筛选方法,其特征在于,所述方法包括:获取待处理的训练样本集;所述待处理的训练样本集用于训练深度学习模型;所述待处理的训练样本集包括多个待处理的训练样本;利用属性分类模型对所述待处理的训练样本集进行层次聚类,构建分类树;所述属性分类模型用于识别所述待处理的训练样本的目标属性;所述目标属性用于表征所述待处理的训练样本对所述深度学习模型的特征学习的影响种类;根据所述分类树将所述待处理的训练样本集划分为N个类别;每个类别包括至少一个所述待处理的训练样本;N为大于1的整数;从所述N个类别中的每个类别选取出一个样本子集,得到N个样本子集;所述样本子集是对一个类别中的困难样本进行主动学习得到的;将所述N个样本子集合并得到第一训练样本集。2.根据权利要求1所述的方法,其特征在于,针对所述N个类别中的第一类别,所述从所述N个类别中的每个类别选取出一个样本子集,包括:从所述第一类别中按照第一比例随机选取出初始训练样本集;基于所述初始训练样本集,对所述深度学习模型进行训练直至收敛;基于训练至收敛的深度学习模型,从所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本选取困难样本;将选取出的困难样本加入所述初始训练样本集,得到样本子集。3.根据权利要求2所述的方法,其特征在于,每个所述待处理的训练样本均包括真值标签;所述基于训练至收敛的深度学习模型,从所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本选取困难样本,包括:将所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本输入训练至收敛的深度学习模型,得到每个所述剩余待处理的训练样本的预测值;在所述剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本;M为自然数。4.根据权利要求3所述的方法,其特征在于,所述在所述剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本,包括:按照预测值与真值标签之间的重合度从小到大的顺序,将所述剩余待处理的训练样本排序,得到重合度排序结果;选取出所述重合度排序结果中重合度小于预设阈值的前M%个剩余待处理的训练样本。5.根据权利要求3所述的方法,其特征在于,所述预测值与真值标签之间的重合度为交并比。6.根据权利要求1所述的方法,其特征在于,所述分类树包括多层;每一层包括多个树节点;每一个树节点包括一个或多个所述待处理的训练样本;同一层的不同的树节点中的所述待处理的训练样本的目标属性不同;所述根据所述分类树将所述待处理的训练样本集划分为N个类别,包括:选取所述分类树中的目标层;所述目标层为所述分类树的多层中的任意一层;根据所述目标层的不同的树节点的目标属性,将所述待处理的训练样本集划分为N个
类别。7.根据权利要求1

6任一项所述的方法,其特征在于,所述属性分类模型是基于属性训练样本集对预设的初始模型进行训练得到的;所述属性训练样本集包括多个属性训练样本;每一个所述属性训练样本集包括所述待处理的训练样本和与所述待处理的训练样本对应的标签;所述标签为所述目标属性。8...

【专利技术属性】
技术研发人员:王现瑞
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1