The invention provides a data classification method, device, device and computer readable storage medium. The invention provides a data classification method, apparatus, equipment and a computer readable storage medium. The first classification model is obtained by machine learning by mixing all the minority class sample sets to form a new sample set and the majority class sample set together as training samples, and the minority class sample set and the majority class sample are solved. The problem of the imbalance of the number of samples in this set is that all the minority sample sets are trained as new samples to get the second classification model. By combining the first classification model with the second classification model, the problem of inaccurate prediction of minority data is solved.
【技术实现步骤摘要】
一种数据分类方法、装置、设备及计算机可读存储介质
本专利技术涉及信息处理
,尤其涉及一种数据分类方法、装置、设备及计算机可读存储介质。
技术介绍
目前在数据建模将数据分类的过程中,特别是多分类的情况下,往往会存在各类样本呈现类不均衡问题,当各类的训练样本数量差异相当大时,直接利用不均衡的样本进行训练得到分类模型的话,由于各类样本数量的不均衡性,模型训练的结果可能很不理想,那么利用训练得到的模型进行预测而获得的预测结果也不理想,甚至预测结果是相反的。目前比较普遍的做法是将数量较少的那些样本通过产生新样本的方法来使得样本数量增加,以达到与数量较多的样本数量均衡的水平,但由于新样本不是真实的样本,且产生的新样本不能过多,因此需要放弃较多数样本中的大部分样本分样本,但由于丢弃了大部分样本,建立的数据模型其预测结果可能会不准确。
技术实现思路
本专利技术实施例提供了一种数据分类方法、装置、设备及计算机可读存储介质,利用模型嵌套的方式对数据进行分类,提高预测结果的准确性。第一方面,本专利技术实施例提供了一种数据分类方法,该方法包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分 ...
【技术保护点】
1.一种数据分类方法,其特征在于,包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。
【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。2.根据权利要求1所述的数据分类方法,其特征在于,所述获取训练样本集合,包括:采集带有标签的数据;将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量;计算所述若干类少数类样本原始集合的平均样本数量;从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;计算所述混合样本集合的混合样本总数量;分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。3.根据权利要求1所述的数据分类方法,其特征在于,所述对所述混合样本集合进行机器学习得到第一分类模型,包括:将所述混合样本集合赋为一种新类型的样本集合;将所述训练样本集合分为第一训练集合和第一校验集合;将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;利用所述第一校验集合校验所述第一分类模型。4.根据权利要求3所述的数据分类方法,其特征在于,所述根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类,包括:若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。5.根据权利要求1所述的数据分类方法,其特征在于,所述利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果,包括:利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。6.一种数据分类装置,其特征在于,包括:获取单元,用于获取训练样本集合...
【专利技术属性】
技术研发人员:伍文岳,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。