一种异常样本确定方法、装置、设备及介质制造方法及图纸

技术编号:32214415 阅读:26 留言:0更新日期:2022-02-09 17:20
本发明专利技术实施例提供了一种异常样本确定方法、装置、设备及介质,通过确定数值最大的第一变异系数对应的第一特征,以及第一特征的最大特征权重对应的第一模型的第一训练样本,和第一特征的最小特征权重对应的第二模型的第二训练样本,基于该第一训练样本和第二训练样本,得到第一目标训练样本和第二目标训练样本,并进行模型训练,根据至少一个模型和该第一目标模型,计算该第一特征的第二变异系数,并根据至少一个模型模型和该第二目标模型,计算该第一特征的第三变异系数,若该第二变异系数和第三变异系数均小于该第一变异系数,则确定不存在异常样本,实现对样本数据集中是否存在异常样本的判断。在异常样本的判断。在异常样本的判断。

【技术实现步骤摘要】
一种异常样本确定方法、装置、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种异常样本确定方法、装置、设备及介质。

技术介绍

[0002]随着科学技术的发展,模型被应用于越来越多的
具体的,当人们需要实现某一功能时,会预先准备大量的样本数据集,然后从样本数据集选取多组样本数据,基于选取的每组样本数据,得到对应的每个训练完成的模型。为了从训练完成的多个模型中选取性能最优的模型投入到生产中,在模型训练完成后会采用黑盒技术对模型进行测试,将大量的数据输入到训练完成的模型中,针对模型输出的预测结果,选取预测结果最准确的模型为最优模型。
[0003]但是,在模型训练使用的样本数据集中,可能存在数据异常的异常样本,在可能的情况下该数据异常的异常样本可能会导致训练得到的模型预测不准,并且会影响最优模型的选择,但是在现有技术中,并没有如何判断样本数据集中是否存在异常样本的方法。

技术实现思路

[0004]本专利技术实施例提供了一种异常样本确定方法、装置、设备及介质,实现了对样本数据集中异常样本的确定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常样本确定方法,其特征在于,所述方法包括:针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。2.根据权利要求1所述的方法,其特征在于,若所述第二变异系数和所述第三变异系数中的至少一个不小于所述第一变异系数,所述方法还包括:若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数
均小于所述第七变异系数,则确定不存在异常样本。3.根据权利要求2所述的方法,其特征在于,若所述第五变异系数和所述第六变异系数中的至少一个不小于所述第四变异系数,所述方法还包括:若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或若...

【专利技术属性】
技术研发人员:黄海
申请(专利权)人:泰康在线财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1