一种针对不平衡样本的机器学习分类方法技术

技术编号：32775831 阅读：14 留言：0更新日期：2022-03-23 19:32

本发明专利技术涉及机器学习分类方法技术领域，尤其涉及一种针对不平衡样本的机器学习分类方法，针对当前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4：1的仍存在效果不好的问题，现提出如下方案，其中包括以下步骤：S1：下定义，S2：定义输入，S3：公式计算，S4：输出及处理，本发明专利技术的目的是通过利用相对危险度来替换分类回归树的建立树分割点的基尼指数来解决样本分类比例超过4：1的不平衡数据的问题，且在正负样本为40：1的样本集上，此算法测试效果为准确性80％，远高于SVC等常用机器学习算法。习算法。习算法。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对不平衡样本的机器学习分类方法

[0001]本专利技术涉及机器学习分类方法
，尤其涉及一种针对不平衡样本的机器学习分类方法。

技术介绍

[0002]近年来，机器学习技术得到了前所未有的发展。在机器学习任务中，我们经常会遇到这种困扰：数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。
[0003]对于分类问题，永远都逃不过的一个痛点就是样本不均衡问题。样本不均衡是指在一组数据集中，标签的一类占有很大的比例，但我们有着捕捉出某种特定的分类的需求的状况。
[0004]分类学习方法都有一个共同的基本假设，即不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别，对学习结果的影响通常也不大，但若样本类别数目差别很大，属于极端不均衡，则会对学习过程(模型训练)造成困扰。这些学习算法的设计背后隐含的优化目标是数据集上的分类准确度，而这会导致学习算法在不平衡数据上更偏向于含更多样本的多数类。一般而言，如果正负类样本类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前，需要对分类不均衡性问题进行处理。
[0005]当前，解决这一问题的方法有如下几种，可采用上采样下采样的方法。但这些采样方法会增加样本的总数，对于支持向量机这

【技术保护点】

【技术特征摘要】
1.一种针对不平衡样本的机器学习分类方法，其特征在于，包括以下步骤：S1：下定义：根据相对危险度的非暴露组和暴露组的定义进行类似定义，并通过公式下定义；S2：定义输入：通过定义输入代入相应公式，得到对应取值及对应的损失函数值RR；S3：公式计算：根据RR公式计算训练集T损失函数值RR；S4：输出及处理：输出：f
*
，RR，并根据最优划分特征f
*
及其取值将训练集T划分为T1和T2。2.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所述S1中，通过公式进行定义，其中公式为其中公式为RR＝p/q或者RR＝(p(1
‑
p))/(q(1
‑
q)) (3)High_per＝high/low (4)。3.根据权利要求2所述的一种针对不平衡样本的机器学习分类方法，其特征在于，通过根据相对危险度的非暴露组和暴露组的定义，采用相似方法定义了高精度组和低精度组，定义p为错误预测的样本数量与低精度预测样本总数的比值，变量q定义为不正确预测的样本数量与高精度预测样本总数的比值，通过此定义，推导出错误预测的样本数量+不正确预测的样本数量等于错误识别的样本个数，并在p和q的分子上加1。4.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法，其特征在于，所述S2中，进行定义输入时训练集为T＝{(x1，y1)，(x2，y2)，...，(x
N
，y
N
)}，特征集为F＝{f1，f2，...，f
d
}，最少样本集为min_sample＝k，损失函数阈值为threshold＝ε，并以node为根节点，其中以node为根节点时特征集F为空或训练集T中样本关于特征集F中类别全部相同时需将node标记为叶结点，训练集T中的样本数量少于min_sample需将该标记为叶结点，且其类别标记为T中样本数最多的类。5.根据权利要求4所述的一种针对不平衡样本的机器学习分类方法，其特征在于，从特征集F中选择最优划分特征f
*
，并得到对应取值及对应的损失函数值RR，其中训练集为T＝{(x1，y1)，(x2，y2)，...，(x
N
，y
N
)}，特征集为F＝{f1，f2，...，f
d
}，阈值为θ1和θ2，且θ1＜θ2。6....

【专利技术属性】
技术研发人员：单曙光，
申请(专利权)人：玖特北京医学科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人