一种不均衡样本分类方法和装置制造方法及图纸

技术编号:26172893 阅读:32 留言:0更新日期:2020-10-31 13:52
本发明专利技术实施例提供了一种不均衡样本分类方法及装置,其中一种不均衡样本分类方法包括:获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;利用所述样本数据和所述特征数据计算出样本贡献率;根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。通过利用特征取值贡献率和特征贡献程度两个变量,来剔除分类贡献度低的特征和样本,有效降低不均衡样本数据的处理,在此基础上利用机器学习算法,采用有效的特征或样本来实现高效的分类,在保证分类质量的前提下,同时提高了分类的效率。

【技术实现步骤摘要】
一种不均衡样本分类方法和装置
本专利技术涉及数据处理
,特别是涉及一种不均衡样本分类方法和一种不均衡样本分类装置。
技术介绍
现实生活中经常遇到各种各样的分类问题,例如在众多的贷款申请者中识别出优质客户,保险公司根据车辆和车主情况判断车险级别,根据食品信息样本进行食品分级等。当分类问题的各类样本较为均衡时,容易得出非常准确的结果。然而在各类样本的占比差距非常大的情况下,其样本比例达到1:100,这种情况称为样本不均衡。要想得到比较理想的分类效果就面临很大的挑战。在处理样本不均衡的问题时,目前主要通过数据采样处理和算法调整来解决。数据采样处理方面,论文《面向不均衡数据集的过抽样算法》结合聚类算法提出了改进过抽样算法CSMOTE,即使用少数类的簇心与其对应簇中样本进行线性插值合成样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。算法调整方面,论文《基于不平衡数据类分布学习的特征选择方法》提出一种基于不平衡数据类分布学习的特征选择方法。首先,该方法的损失函数由累加相对熵变形为连乘相对熵的形式从而将不平衡数据评价引入至损失函数中。对新的损失函数进行变形及梯度求导得出损失函数下降的梯度方向,通过变步长梯度下降法使得损失函数收敛。最后通过对学习到的类分布进行阈值控制从而筛选特征以达到特征选择的目的。传统算法应用于不均衡样本的分类问题时,存在计算方法复杂、分类准确性不高等问题。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种不均衡样本分类方法和相应的一种不均衡样本分类装置。为了解决上述问题,本专利技术实施例公开了一种不均衡样本分类方法,包括:获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;利用所述样本数据和所述特征数据计算出样本贡献率;根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。进一步地,所述样本贡献率包括特征取值贡献率,所述利用所述样本数据和所述特征数据计算出样本贡献率的步骤,包括:利用所述样本数据ai和所述特征数据bj计算出所述特征取值贡献率;其中,aij为第i个样本中特征j对应的取值,若所述不均衡样本数据中的样本分类为ck,k=1、2、...、T,样本总数为N,i=1、2、...、N;aij对ck的特征取值贡献率=max(Nck/Njk,(1-N)/Njk);其中,Nck代表在特征bj下取值与aij相等的样本在分类ck中的个数,Njk代表在特征bj下取值与aij相等的样本的总数。进一步地,所述样本贡献率包括特征贡献率,所述利用所述样本数据ai和所述特征数据bj计算出所述特征取值贡献率的步骤之后,包括:利用所述样本数据ai、所述特征数据bj和所述aij对ck的特征取值贡献率计算出所述特征贡献率;其中,bj对ck的特征贡献率=∑(特征取值贡献度*MAX(Nck,1-Nck))/N。进一步地,所述根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据的步骤,包括:若所述不均衡样本数据中特征贡献率为1的特征数量大于等于2,保留一个特征贡献率为1的特征数据,剔除其余特征贡献率为1的特征数据。进一步地,所述根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据的步骤,还包括:剔除有多个样本存在所述不均衡样本数据中特征值取值贡献率小于等于0.5的样本数据。进一步地,所述将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果的步骤之后,还包括:利用历史不均衡样本数据对基于所述优化分类算法构建的待训练模型进行训练。进一步地,所述利用历史不均衡样本数据对基于所述优化分类算法构建的待训练模型进行训练的步骤,包括:获取用于建立所述历史不均衡样本数据与所述样本分类结果之间的对应关系的样本数据;分析所述历史不均衡样本数据中特征数据和样本数据的特性及其规律,根据所述特性及其规律,确定所述样本分类模型的模型结构及其模型参数。本专利技术实施例公开了一种不均衡样本分类装置,包括:数据获取模块,用于获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;数据分析模块,用于利用所述样本数据和所述特征数据计算出样本贡献率;数据筛选模块,用于根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;样本分类模块,用于将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。本专利技术实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的不均衡样本分类方法的步骤。本专利技术实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的不均衡样本分类方法的步骤。本专利技术实施例包括以下优点:通过利用特征取值贡献率和特征贡献程度两个变量,来剔除分类贡献度低的特征和样本,有效降低不均衡样本数据的处理,在此基础上利用机器学习算法,采用有效的特征或样本来实现高效的分类,在保证分类质量的前提下,同时提高了分类的效率。附图说明图1是本专利技术的一种不均衡样本分类方法实施例的步骤流程图;图2是本专利技术的一种不均衡样本分类方法实施例的流程框图;图3是本专利技术的一种不均衡样本分类装置实施例的结构框图;图4是本专利技术一实施例的一种计算机设备的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术实施例的核心构思之一在于,提供了一种不均衡样本分类方法及装置,其中,一种不均衡样本分类方法,包括:获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;利用所述样本数据和所述特征数据计算出样本贡献率;根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。通过利用特征取值贡献率和特征贡献程度两个变量,来剔除分类贡献度低的特征和样本,有效降低不均衡样本数据的处理,在此基础上利用机器学习算法,采用有效的特征或样本来实现高效的分类,在保证分类质量的前提下,同时提高了分类的效率。参照图1-2,示出了本专利技术的一种不均衡样本分类方法实施例的步骤流程图,具体可以包括如下步骤:S100,获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;S200,利用所述样本数据和所述特征数据计算出样本贡献率;S300,根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本本文档来自技高网...

【技术保护点】
1.一种不均衡样本分类方法,其特征在于,包括:/n获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;/n利用所述样本数据和所述特征数据计算出样本贡献率;/n根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;/n将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。/n

【技术特征摘要】
1.一种不均衡样本分类方法,其特征在于,包括:
获取不均衡样本数据,所述不均衡样本数据包括样本数据和特征数据;
利用所述样本数据和所述特征数据计算出样本贡献率;
根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据;
将所述目标样本数据输入至样本分类模型中利用优化分类算法计算得到样本分类结果。


2.根据权利要求1所述的方法,其特征在于,所述样本贡献率包括特征取值贡献率,所述利用所述样本数据和所述特征数据计算出样本贡献率的步骤,包括:
利用所述样本数据ai和所述特征数据bj计算出所述特征取值贡献率;
其中,aij为第i个样本中特征j对应的取值,若所述不均衡样本数据中的样本分类为ck,k=1、2、...、T,样本总数为N,i=1、2、...、N;
aij对ck的特征取值贡献率=max(Nck/Njk,(1-N)/Njk);
其中,Nck代表在特征bj下取值与aij相等的样本在分类ck中的个数,Njk代表在特征bj下取值与aij相等的样本的总数。


3.根据权利要求2所述的方法,其特征在于,所述样本贡献率包括特征贡献率,所述利用所述样本数据ai和所述特征数据bj计算出所述特征取值贡献率的步骤之后,包括:
利用所述样本数据ai、所述特征数据bj和所述aij对ck的特征取值贡献率计算出所述特征贡献率;
其中,
bj对ck的特征贡献率=∑(特征取值贡献度*MAX(Nck,1-Nck))/N。


4.根据权利要求3所述的方法,其特征在于,所述根据所述样本贡献率筛选出预设样本贡献阈值内的样本数据,确定为目标样本数据的步骤,包括:
若所述不均衡样本数据中特征贡献率为1的特征数量大于等于2,保留一个特征贡献率为1的特征数据,剔除其余特征贡献率为1的特征数据。


5.根据权利要求4所...

【专利技术属性】
技术研发人员:包先雨蔡伊娜阮周曦郭云吴绍精卢体康陈枝楠
申请(专利权)人:深圳市检验检疫科学研究院深圳海关信息中心深圳海关动植物检验检疫技术中心全国海关信息中心全国海关电子通关中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1