【技术实现步骤摘要】
一种分类模型的训练方法、质检预测方法及对应装置
[0001]本专利技术涉及模型训练
,尤其涉及一种分类模型的训练方法、质检预测方法及对应装置。
技术介绍
[0002]分类技术在各种业务场景中使用非常广泛,分类技术是指主要采用分类器在数据挖掘过程中对样本进行分类的方法,可以包含使用决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
[0003]目前,在某些业务场景中,在训练分类模型时,对于采集到的样本数据,会出现正负样本极度不平衡的情况,那么现在主要是采用以下3种方案来控制这种样本不平衡:1、降采样方案,即在负样本中随机采样,从而通过降低负样本的数量,以使正负样本数量达到平衡,但是由于采样的随机性,无法确保得到负样本的质量;2、过采样方案,即将正样本进行扩充,以使正负样本数量达到平衡,但是对于负样本数量很大的情况,此种方案并不适合;3、调整样本权重的方案,但对于正负样本差异较大时,无法确保调整的效果。
[0004]但是以上3种方案都是存在一些缺陷的,控制样本不平衡的效果不够好,从而导致最终会影响分类模型的训练 ...
【技术保护点】
【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,所述方法包括:获取样本数据集,所述样本数据集包括训练集和验证集,所述样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值;利用所述训练集训练初始分类模型,得到第一分类模型;将所述验证集输入所述第一分类模型,输出预测所述验证集为正样本的预测结果,所述预测结果中至少包含所述验证集中原始正样本被预测为正样本所对应的目标概率值;根据所述目标概率值,从所述训练集中删除容易负样本,得到新训练集;利用所述新训练集训练所述第一分类模型,得到第二分类模型。2.根据权利要求1所述的方法,其特征在于,在所述将所述验证集输入所述第一分类模型,输出预测所述验证集为正样本的预测结果之后,所述方法还包括:获取所述预测结果中每个样本被预测为正样本所对应的概率值;按照所述概率值从高到低,从所述验证集中获取预设数量的样本,其中,所述预设数量中原始正样本数量与所述验证集中原始正样本数量之间比值达到第一预设阈值;将获取到的所述预设数量的样本组成新验证集,所述新验证集用于测试所述新训练集训练得到的分类模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标概率值,从所述训练集中删除容易负样本,得到新训练集,包括:在所述预设数量的样本对应的概率值中,选取最小概率值,作为目标概率值;将所述训练集输入所述第一分类模型,输出预测所述训练集为正样本的预测结果,所述预测结果中至少包含所述训练集被预测为正样本所对应的概率值;在所述概率值小于或等于所述目标概率值,且所述概率值对应的样本为所述训练集中的原始负样本的情况下,将所述概率值对应的原始负样本确定为容易负样本;从所述训练集中删除所述容易负样本,得到新训练集。4.根据权利要求3所述的方法,其特征在于,将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果,所述方法还包括:在所述新训练集中负样本数量和正样本数量之间的比值大于或等于所述预设样本不平衡阈值的情况下,利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作;在所述新训练集中原始负样本数量和原始正样本数量之间的比值小于所述预设样本不平衡阈值的情况下,停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。5.根据权利...
【专利技术属性】
技术研发人员:陈实,李宽,王洪斌,蒋宁,吴海英,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。