基于样本剔除的模型训练方法及设备技术

技术编号:28038663 阅读:28 留言:0更新日期:2021-04-09 23:21
本发明专利技术的目的是提供一种基于样本剔除的模型训练方法及设备,本发明专利技术通过在原始训练集中剔除容易样本,原始训练集中的容易样本剔除后,原始训练集中剩余的样本为困难样本,将困难样本作为新的训练集,使用所述新的训练集对所述模型进行的新的一轮迭代训练,直至模型收敛。本发明专利技术通过剔除容易样本,在模型训练后期增大了困难样本在训练集中所占比例,是对训练集中的样本分布的动态调整,从而加强模型对困难样本的学习。实验表明,该方法能够提升模型在训练集与测试集上的性能。

【技术实现步骤摘要】
基于样本剔除的模型训练方法及设备
本专利技术涉及计算机领域,尤其涉及一种基于样本剔除的模型训练方法及设备。
技术介绍
在深度学习领域中,训练集所使用的样本分布直接影响了模型训练的过程,从而决定了深度学习模型的好坏。使用一个分布均衡的训练集进行训练,通常可以使模型具有更好的预测性能与泛化能力。传统的深度学习模型训练方法通常使用固定的训练集进行训练,这样的训练方式往往会使模型更加稳定。但是当训练集中出现样本分布不均衡等问题时,模型在各个类型样本上的表现往往不同。存在某些模式的样本更容易被模型学习,而另一些模式的样本不易学习。因此模型在不同类型的样本上的收敛速度是不同的。当训练集样本固定时,各类型样本在训练集中所占比例固定不变。当模型在易学习样本上已经收敛时,继续使用易学样本对模型进行训练会干扰模型对困难样本的学习,从而导致模型整体性能的提升到达瓶颈。如果能够动态改变训练集的样本分布,在模型训练的不同时期加强模型对不同类型样本的学习,则可以大大优化模型的性能。视频预测类任务不同于一般的判别类任务,无法根据简单的准确率等方式确定容易样本本文档来自技高网...

【技术保护点】
1.一种基于样本剔除的模型训练方法,其中,该方法包括:/n使用原始训练集中的样本对模型进行一轮迭代训练直至模型收敛,其中,每一轮迭代训练包括多次迭代训练;同时在当前轮的迭代训练的各次迭代训练阶段获取所述原始训练集中所有样本的损失值,并对原始训练集中所有样本的损失值进行统计学分析,得到统计学分析结果;/n基于所述统计学分析结果,确定所述原始训练集中的样本的各类型的损失对应的损失值的容易样本阈值范围;/n使用原始训练集对所述模型进行的新的一轮迭代训练,在当前轮的迭代训练中,判断所述原始训练集中的每个样本的各类型的损失的对应的损失值是否在相应的容易样本阈值范围之内,以得到所述原始训练集中容易样本,将...

【技术特征摘要】
1.一种基于样本剔除的模型训练方法,其中,该方法包括:
使用原始训练集中的样本对模型进行一轮迭代训练直至模型收敛,其中,每一轮迭代训练包括多次迭代训练;同时在当前轮的迭代训练的各次迭代训练阶段获取所述原始训练集中所有样本的损失值,并对原始训练集中所有样本的损失值进行统计学分析,得到统计学分析结果;
基于所述统计学分析结果,确定所述原始训练集中的样本的各类型的损失对应的损失值的容易样本阈值范围;
使用原始训练集对所述模型进行的新的一轮迭代训练,在当前轮的迭代训练中,判断所述原始训练集中的每个样本的各类型的损失的对应的损失值是否在相应的容易样本阈值范围之内,以得到所述原始训练集中容易样本,将容易样本从所述原始训练集中剔除,将原始训练集中剩余的样本作为新的训练集;
使用新的训练集对所述模型进行的当前轮迭代训练的后续的迭代训练,直至模型收敛。


2.根据权利要求1所述的方法,其中,对原始训练集中所有样本的损失值进行统计学分析,得到统计学分析结果,包括:
对原始训练集中所有样本的损失值进行统计学分析,得到所有样本的损失值的取值范围,基于模型训练目标和所有样本的损失值的取值范围,初步筛选一个或多个类型的损失;
基于所有样本的损失值的取值范围,分析在当前轮的迭代训练的各次迭代训练阶段中损失值的分布的变化情况,基于所述变化情况确定原始训练集中所有样本的整体损失值收敛的训练迭代次数的次数阈值N,N大于等于1;
若初步筛选损失的类型为多个,分析不同类型的损失之间的相关性,基于所述相关性从所述初步筛选损失的类型中进一步筛选出最终的一个或多个类型的损失。


3.根据权利要求2所述的方法,其中,对原始训练集中所有样本的损失值进行统计学分析,得到所有样本的损失值的取值范围,基于模型训练目标和所有样本的损失值的取值范围,初步筛选一个或多个类型的损失,包括:
对原始训练集中所有样本的损失值进行统计学分析,得到所有样本的损失值的取值范围;
基于所有样本的损失值的取值范围获取高损失值的样本和低损失值的样本;
基于获取到的高损失值的样本和低损失值的样本,初步筛选一个或多个类型的损失。


4.根据权利要求2所述的方法,其中,若初步筛选损失的类型为多个,分析不同类型的损失之间的相关性,基于所述相关性从所述初步筛选损失的类型中进一步筛选出最终的一个或多个类型的损失,包括:
若初步筛选损失的类型为多个,分析不同类型的损失之间的相关性,得到相关性小于预设相关性阈值的一个或多个类型的损失;
将相关性小于预设相关性阈值的一个或多个类型的损失作为筛选出的最终的一个或多个类型的损失。


5.根据权利要求2所述的方法,其中,基于所述统计学分析结果,确定所述原始训练集中的样本的各类型的损失对应的损失值的容易样本阈值范围,包括:
确定进一步筛选出的最终的一个或多个类型的损失的对应的损失值的容易样本阈值范围。


6.根据权利要求5所述的方法,其中,确定进一步筛选出的最终的一个或多个类型的损失的对应的损失值的容易样本阈值范围,包括:
对筛选出的最终的每一类型的损失,分析最终的每一类型的损失的损失值的取值范围在当前轮的迭代训练的各次迭代训练阶段的变化,当某次次迭代训练阶段的损失值的取值范围相对变化小于预设变化阈值时,确认模型此时已经收敛;
选取模型收敛时相对变化小于预设变化阈值的损失值的取值范围的预设百分位数作为容易样本阈值范围。


7.根据权利要求2所述的方法,其中,使用原始训练集对所述模型进行的新的一轮迭代训练,在当前轮的迭代训练中,判断所述原始训练集中的每个样本的各类型的损失的对应的损失值是否在相应的容易样本阈值范围之内,以得到所述原始训练集中容易样本,基于所述判断结果,将容易样本从所述原始训练集中剔除,将原始训练集中剩余的样本作为新的训练集,包括:
使...

【专利技术属性】
技术研发人员:林小钰
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1