一种数据分类方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:18658748 阅读:44 留言:0更新日期:2018-08-11 14:44
本发明专利技术提供一种数据分类方法、装置、设备及计算机可读存储介质。本发明专利技术提供了数据分类方法、装置、设备及计算机可读存储介质,通过将所有少数类样本集合混合形成一个新的样本集合与多数类样本集合一起作为训练样本进行机器学习得到第一分类模型,解决了少数类样本集合与多数类样本集合样本数量不均衡的问题,通过所有少数类样本集合作为新的样本重新训练得到第二分类模型,通过第一分类模型和第二分类模型的结合预测数据的类型,解决了对少数类数据预测不准确的问题。

Data classification method, device, device and computer readable storage medium

The invention provides a data classification method, device, device and computer readable storage medium. The invention provides a data classification method, apparatus, equipment and a computer readable storage medium. The first classification model is obtained by machine learning by mixing all the minority class sample sets to form a new sample set and the majority class sample set together as training samples, and the minority class sample set and the majority class sample are solved. The problem of the imbalance of the number of samples in this set is that all the minority sample sets are trained as new samples to get the second classification model. By combining the first classification model with the second classification model, the problem of inaccurate prediction of minority data is solved.

【技术实现步骤摘要】
一种数据分类方法、装置、设备及计算机可读存储介质
本专利技术涉及信息处理
,尤其涉及一种数据分类方法、装置、设备及计算机可读存储介质。
技术介绍
目前在数据建模将数据分类的过程中,特别是多分类的情况下,往往会存在各类样本呈现类不均衡问题,当各类的训练样本数量差异相当大时,直接利用不均衡的样本进行训练得到分类模型的话,由于各类样本数量的不均衡性,模型训练的结果可能很不理想,那么利用训练得到的模型进行预测而获得的预测结果也不理想,甚至预测结果是相反的。目前比较普遍的做法是将数量较少的那些样本通过产生新样本的方法来使得样本数量增加,以达到与数量较多的样本数量均衡的水平,但由于新样本不是真实的样本,且产生的新样本不能过多,因此需要放弃较多数样本中的大部分样本分样本,但由于丢弃了大部分样本,建立的数据模型其预测结果可能会不准确。
技术实现思路
本专利技术实施例提供了一种数据分类方法、装置、设备及计算机可读存储介质,利用模型嵌套的方式对数据进行分类,提高预测结果的准确性。第一方面,本专利技术实施例提供了一种数据分类方法,该方法包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。第二方面,本专利技术实施例还提供了一种数据分类装置,所述数据分类装置包括用于实现第一方面所述的数据分类方法的单元。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器,以及与所述存储器相连的处理器;所述存储器用于存储实现数据分类方法的计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现上述第一方面所述的方法。本专利技术提供了数据分类方法、装置、设备及计算机可读存储介质,通过将所有少数类样本集合混合形成一个新的样本集合与多数类样本集合一起作为训练样本进行机器学习得到第一分类模型,解决了少数类样本集合与多数类样本集合样本数量不均衡的问题,通过所有少数类样本集合作为新的样本重新训练得到第二分类模型,通过第一分类模型和第二分类模型的结合预测数据的类型,解决了对少数类数据预测不准确的问题。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种数据分类方法的流程示意图;图2是本专利技术实施例提供的一种数据分类方法的子流程示意图;图3是本专利技术实施例提供的一种数据分类方法的另一子流程示意图;图4是本专利技术实施例提供的一种数据分类装置的示意性框图;图5是本专利技术实施例提供的一种数据分类装置的子单元结构示意性框图;图6是本专利技术实施例提供的一种数据分类装置的另一子单元结构示意性框图;图7是本专利技术实施例提供的一种计算机设备的结构示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语,这些术语仅用来将这些元素彼此区分开。图1为本专利技术实施例提供的一种数据分类方法的流程示意图。该方法包括步骤S101~S107。S101,获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡。多数类样本集合指的是样本数量大的某一类数据的集合,少数类样本集合指的是样本数量非常少的某一类数据的集合,多数类样本集合和少数类样本集合的数量差异巨大,例如,当两个样本集合的样本数量比值大于或等于5时,可以将这两个样本集合分为多数类样本集合和少数类样本集合。不同类型的样本集合的样本数量相差较大,如果利用样本数量差异较大的样本集合进行模型训练直接预测,例如,五类样本集合A、B、C、D、和E,A和B的样本数量均衡且非常多,但B、C和D样本数量均衡但非常少,如果直接将A、B、C、D和E作为独立的一类样本进行模型训练,得到的模型其预测结果(属于A、B、C、D或E)准确率不高,因此需要将样本数量均衡化。在样本采集的过程中会出现这样一种情况:每一类多数类样本的样本数量远远大于每一类少数类样本的样本数量,但所有少数类样本的样本数量之和能够与任意一类多数类样本的样本数量相当,因此,可以将少数类样本混合作为一个新类型的样本,即混合样本集合,以解决样本不均衡的问题。在本专利技术实施例中,两类样本的样本数量相当指的数量较少的一类样本的样本数量达到数量较多的一类样本的样本数量的90%以上。具体地,如图2所示,步骤S101包括子步骤S1011-S1017:S1011,采集带有标签的数据。S1012,将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合。S1013,分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量。S1014,计算所述若干类少数类样本原始集合的平均样本数量。S1015,从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合。S1016,计算所述混合样本集合的混合样本总数量。S1017,分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。以上通过将若干类少数类样本混合形成混合样本集合,而后从每一类多数类样本中抽取与该混合样本集合数量相当的样本形成对应类型的多数类样本集合,最终能够使得每一类多数类样本集合以及该混合样本集合的样本数量趋近均衡。在本专利技术实施例中,采集到的若干类少数类样本原本文档来自技高网...

【技术保护点】
1.一种数据分类方法,其特征在于,包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。2.根据权利要求1所述的数据分类方法,其特征在于,所述获取训练样本集合,包括:采集带有标签的数据;将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量;计算所述若干类少数类样本原始集合的平均样本数量;从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;计算所述混合样本集合的混合样本总数量;分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。3.根据权利要求1所述的数据分类方法,其特征在于,所述对所述混合样本集合进行机器学习得到第一分类模型,包括:将所述混合样本集合赋为一种新类型的样本集合;将所述训练样本集合分为第一训练集合和第一校验集合;将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;利用所述第一校验集合校验所述第一分类模型。4.根据权利要求3所述的数据分类方法,其特征在于,所述根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类,包括:若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。5.根据权利要求1所述的数据分类方法,其特征在于,所述利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果,包括:利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。6.一种数据分类装置,其特征在于,包括:获取单元,用于获取训练样本集合...

【专利技术属性】
技术研发人员:伍文岳
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1