【技术实现步骤摘要】
训练样本的筛选方法、装置、设备及存储介质
[0001]本申请涉及深度学习领域,尤其涉及一种训练样本的筛选方法、装置、设备及存储介质。
技术介绍
[0002]深度学习模型(例如目标检测模型)在实际的工业应用中,随着项目的不断迭代,往往会积累大量的训练样本。训练样本可以包括简单样本和困难样本。这些大量的训练样本中,往往存在比例失衡的情况,例如,简单样本占据了训练样本的极大部分,困难样本占据了训练样本的极小部分。利用这样比例失衡的训练样本会使得深度学习模型仅学习到了简单样本的特征,而无法学习到困难样本的特征。
[0003]为了解决训练样本的比例失衡的情况,可以增加困难样本的数量,以实现训练样本的比例平衡。例如,对困难样本重采样等。
[0004]但是,通过增加困难样本的数量来平衡训练样本的比例会导致训练样本的数量进一步增加,降低目标检测模型的迭代开发效率。
技术实现思路
[0005]基于上述技术问题,本申请提供一种训练样本的筛选方法、装置、设备及存储介质,可以通过构建属性分类模型对训练样本进行分类,并调整各个类别下的样本比例,在均衡训练样本比例的同时实现对训练样本的瘦身。
[0006]第一方面,本申请提供一种训练样本的筛选方法,该方法包括:获取待处理的训练样本集;待处理的训练样本集用于训练深度学习模型;待处理的训练样本集包括多个待处理的训练样本;利用属性分类模型对待处理的训练样本集进行层次聚类,构建分类树;属性分类模型用于识别待处理的训练样本的目标属性;目标属性用于表征待处理的训练样本 ...
【技术保护点】
【技术特征摘要】
1.一种训练样本的筛选方法,其特征在于,所述方法包括:获取待处理的训练样本集;所述待处理的训练样本集用于训练深度学习模型;所述待处理的训练样本集包括多个待处理的训练样本;利用属性分类模型对所述待处理的训练样本集进行层次聚类,构建分类树;所述属性分类模型用于识别所述待处理的训练样本的目标属性;所述目标属性用于表征所述待处理的训练样本对所述深度学习模型的特征学习的影响种类;根据所述分类树将所述待处理的训练样本集划分为N个类别;每个类别包括至少一个所述待处理的训练样本;N为大于1的整数;从所述N个类别中的每个类别选取出一个样本子集,得到N个样本子集;所述样本子集是对一个类别中的困难样本进行主动学习得到的;将所述N个样本子集合并得到第一训练样本集。2.根据权利要求1所述的方法,其特征在于,针对所述N个类别中的第一类别,所述从所述N个类别中的每个类别选取出一个样本子集,包括:从所述第一类别中按照第一比例随机选取出初始训练样本集;基于所述初始训练样本集,对所述深度学习模型进行训练直至收敛;基于训练至收敛的深度学习模型,从所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本选取困难样本;将选取出的困难样本加入所述初始训练样本集,得到样本子集。3.根据权利要求2所述的方法,其特征在于,每个所述待处理的训练样本均包括真值标签;所述基于训练至收敛的深度学习模型,从所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本选取困难样本,包括:将所述第一类别中除了所述初始训练样本集之外的剩余待处理的训练样本输入训练至收敛的深度学习模型,得到每个所述剩余待处理的训练样本的预测值;在所述剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本;M为自然数。4.根据权利要求3所述的方法,其特征在于,所述在所述剩余待处理的训练样本中选取M%个预测值与真值标签之间的重合度小于阈值的训练样本,包括:按照预测值与真值标签之间的重合度从小到大的顺序,将所述剩余待处理的训练样本排序,得到重合度排序结果;选取出所述重合度排序结果中重合度小于预设阈值的前M%个剩余待处理的训练样本。5.根据权利要求3所述的方法,其特征在于,所述预测值与真值标签之间的重合度为交并比。6.根据权利要求1所述的方法,其特征在于,所述分类树包括多层;每一层包括多个树节点;每一个树节点包括一个或多个所述待处理的训练样本;同一层的不同的树节点中的所述待处理的训练样本的目标属性不同;所述根据所述分类树将所述待处理的训练样本集划分为N个类别,包括:选取所述分类树中的目标层;所述目标层为所述分类树的多层中的任意一层;根据所述目标层的不同的树节点的目标属性,将所述待处理的训练样本集划分为N个
类别。7.根据权利要求1
‑
6任一项所述的方法,其特征在于,所述属性分类模型是基于属性训练样本集对预设的初始模型进行训练得到的;所述属性训练样本集包括多个属性训练样本;每一个所述属性训练样本集包括所述待处理的训练样本和与所述待处理的训练样本对应的标签;所述标签为所述目标属性。8...
【专利技术属性】
技术研发人员:王现瑞,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。