样本筛选方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32646452 阅读:72 留言:0更新日期:2022-03-12 18:29
本申请涉及人工智能领域,具体涉及一种样本筛选方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取训练完成的第一模型的模型算法;根据第一模型的模型算法,确定多个初始化的子模型;多个子模型中的每个子模型的模型超参数保持一致;通过全量待筛选样本集分别对每个子模型进行训练,得到多个检验模型;通过多个检验模型对全量待筛选样本集中的每个样本进行预测,得到与每个样本分别对应的多个预测结果;基于每个训练样本分别对应的预测结果,从全量待筛选样本集中筛选出候选异常样本;从候选异常样本中筛选出目标异常样本,并从全量待筛选样本集中剔除目标异常样本,得到正常样本集。采用本方法能够提高样本筛选的效率。筛选的效率。筛选的效率。

【技术实现步骤摘要】
样本筛选方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种样本筛选方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着机器学习技术的发展,学习样本的选择越来越重要,它是学习模型是否能够成功构建的基础,也决定了模型效果的上线。对于金融行业中海量的数据,受限于人为、系统等各类原因,使得金融行业的数据中也存在着一些噪声数据,这些噪声会干扰机器学习模型所使用样本的质量,从而影响模型训练效果。
[0003]很显然,高质量的学习样本所含有的噪声样本较少,模型更容易从中学到有价值的信息。但高质量学习样本非常昂贵,通常需要花费大量的人力和物力从海量的样本信息中去除噪声,完成对样本的筛选,这样的筛选方式存在样本筛选效率低的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高样本筛选效率的样本筛选方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种样本筛选方法。所述方法包括
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本筛选方法,其特征在于,所述方法包括:获取训练完成的第一模型的模型算法,其中,所述第一模型通过全量待筛选样本集进行训练得到;根据所述第一模型的模型算法,确定多个初始化的子模型;多个子模型中的每个子模型的模型超参数保持一致;通过所述全量待筛选样本集分别对每个所述子模型进行训练,得到多个检验模型,其中,每个子模型在训练时采用不同的随机数种子;通过所述多个检验模型对所述全量待筛选样本集中的每个样本进行预测,得到与每个样本分别对应的多个预测结果;基于每个训练样本分别对应的预测结果,从所述全量待筛选样本集中筛选出候选异常样本;从所述候选异常样本中筛选出目标异常样本,并从所述全量待筛选样本集中剔除所述目标异常样本,得到正常样本集。2.根据权利要求1所述的方法,其特征在于,所述第一模型的训练步骤,包括:基于目标机器学习算法构建待训练的第一模型;获取全量待筛选样本集,并将所述全量待筛选样本集分为训练集和测试集;将所述待训练的第一模型在所述训练集上进行训练,并在所述测试集上进行测试,直到达到训练停止条件时停止,得到训练完成的第一模型。3.根据权利要求1所述的方法,其特征在于,所述通过所述全量待筛选样本集分别对每个所述子模型进行训练,得到多个检验模型,包括:获取全量待筛选样本集,并将所述全量待筛选样本集分为训练集和测试集;将多个子模型构成初始检验模型序列;将所述初始检验模型序列中的每个子模型分别采用不同的随机数种子在所述训练集上进行训练,并在所述测试集上进行测试,得到多个训练完成的检验模型;其中,多个子模型对应的训练完成的检验模型共同组成训练完成的检验模型序列。4.根据权利要求1所述的方法,其特征在于,所述基于每个训练样本分别对应的预测结果,从所述全量待筛选样本集中筛选出候选异常样本,包括:对于每个训练样本,统计与相应训练样本所对应的多个预测结果中表征预测信心不足的预测结果的个数;基于表征预测信心不足的预测结果的个数、以及所述检验模型的总个数,确定与相应训练样本对应的判定系数;当所述判定系数大于预设阈值时,则确定相应训练样本为候选异常样本。5.根据权利要求1所述的方法,其特征在于,所述从所述候选异常样本中筛选出目标异常样本,包括:基于预设核查规则对多个所述候选异常样本进行逐个核查,判断每个所述候选异常样本是否为真实的异常样本,若是,则将真实的异常样本作为目标异常样本。6.根...

【专利技术属性】
技术研发人员:李策郝芳李熠黄寅
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1