一种针对不平衡样本的机器学习分类方法技术

技术编号:32775831 阅读:14 留言:0更新日期:2022-03-23 19:32
本发明专利技术涉及机器学习分类方法技术领域,尤其涉及一种针对不平衡样本的机器学习分类方法,针对当前现有的针对不平衡样本的机器学习分类方法对于样本比例超过4:1的仍存在效果不好的问题,现提出如下方案,其中包括以下步骤:S1:下定义,S2:定义输入,S3:公式计算,S4:输出及处理,本发明专利技术的目的是通过利用相对危险度来替换分类回归树的建立树分割点的基尼指数来解决样本分类比例超过4:1的不平衡数据的问题,且在正负样本为40:1的样本集上,此算法测试效果为准确性80%,远高于SVC等常用机器学习算法。习算法。习算法。

【技术实现步骤摘要】
一种针对不平衡样本的机器学习分类方法


[0001]本专利技术涉及机器学习分类方法
,尤其涉及一种针对不平 衡样本的机器学习分类方法。

技术介绍

[0002]近年来,机器学习技术得到了前所未有的发展。在机器学习任务 中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主 要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类 准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少 数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡 数据集都不能很好地工作。
[0003]对于分类问题,永远都逃不过的一个痛点就是样本不均衡问题。 样本不均衡是指在一组数据集中,标签的一类占有很大的比例,但我 们有着捕捉出某种特定的分类的需求的状况。
[0004]分类学习方法都有一个共同的基本假设,即不同类别的训练样例 数目相当。如果不同类别的训练样例数目稍有差别,对学习结果的影 响通常也不大,但若样本类别数目差别很大,属于极端不均衡,则会 对学习过程(模型训练)造成困扰。这些学习算法的设计背后隐含的 优化目标是数据集上的分类准确度,而这会导致学习算法在不平衡数 据上更偏向于含更多样本的多数类。一般而言,如果正负类样本类别 不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无 法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性 问题进行处理。
[0005]当前,解决这一问题的方法有如下几种,可采用上采样下采样的 方法。但这些采样方法会增加样本的总数,对于支持向量机这个样本 总是对计算速度影响巨大的算法来说,我们完全不想轻易地增加样本 数量。因此在支持向量机中,我们要大力依赖我们调节样本均衡的参 数:SVC类中的class_weight参数。在逻辑回归中,参数class_weight 默认None,此模式表示假设数据集中的所有标签是均衡的,即自动 认为标签的比例是1:1。所以当样本不均衡的时候,我们可以使用 形如{“标签的值1”:权重1,“标签的值2”:权重2}的字典来输 入真实的样本标签比例,来让算法意识到样本是不平衡的。但是目前 现有的针对不平衡样本的机器学习分类方法对于样本比例超过4:1 的仍存在效果不好等问题,因此,我们提出一种针对不平衡样本的机 器学习分类方法用于解决上述问题。

技术实现思路

[0006]本专利技术目的是为了解决现有的针对不平衡样本的机器学习分类 方法对于样本比例超过4:1的仍存在效果不好的问题,而提出的一 种针对不平衡样本的机器学习分类方法。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:
[0008]一种针对不平衡样本的机器学习分类方法,包括以下步骤:
[0009]S1:下定义:根据相对危险度的非暴露组和暴露组的定义进行类 似定义;
[0010]S2:定义输入:通过定义输入代入相应公式,得到对应取值及对应的损失函数值RR;
[0011]S3:公式计算:根据RR公式计算训练集T损失函数值RR;
[0012]S4:输出及处理:输出:并根据最优划分特征f
*
及 其取值将训练集T划分为T1和T2;
[0013]优选的,所述S1中,通过公式进行定义,其中公式为
[0014][0015][0016]RR=p/q或者RR=(p(1

p))/(q(1

q))
ꢀꢀꢀ
(3)
[0017]High_per=high/low(4),其中根据相对危险度的非暴露组和暴 露组的定义,采用相似方法定义了高精度组和低精度组,定义p为错 误预测的样本(缩写,wrl_low)数量与低精度预测样本(缩写,low) 总数的比值,变量q定义为不正确预测的样本(缩写,wr_high)数 量与高精度预测样本(缩写,high)总数的比值,通过此定义,推导 出wr_low+wr_high等于错误识别的样本个数,并在p和q的分子 上加1,防止错误预测的样本数为0;
[0018]优选的,所述S2中,进行定义输入时训练集为 T={(x1,y1),(x2,y2),...,(x
N
,y
N
)},特征集为F={f1,f2,...,f
d
},最少样本集为 min_sample=k,损失函数阈值为threshold=ε,并以node为根节点,其 中以node为根节点时特征集F为空或训练集T中样本关于特征集F中 类别全部相同时需将node标记为叶结点,训练集T中的样本数量少于 min_sample需将该标记为叶结点,且其类别标记为T中样本数最多的 类,并从特征集F中选择最优划分特征f
*
,并得到对应取值及对应 的损失函数值RR,其中训练集为T={(x1,y1),(x2,y2),...,(x
N
,y
N
)},特征集为 F={f1,f2,...,T
d
},阈值为θ1和θ2,且θ1<θ2;
[0019]优选的,所述S3中,根据RR公式计算训练集T损失函数值RR, 其中令且对于特征集F中的每 一个特征f执行,并对于训练集T中关于特征f的每一个取值f
value
执行,根据f
value
将训练集划分为低置信度训练集和高置信度训练集, 分别记为通过计算将T
low
和T
high
的损失函数值记为RR(T
low
,T
high
), (RR(T
low
,T
high
)>1并且RR(T
low
,T
high
)>RR,同时θ1<high_per≤θ2,f
*
={f}, RR=RR(T
low
,T
high
);
[0020]优选的,所诉S4中,输出并根据最优划分特征f
*
及 其取值将训练集T划分为T1和T2,生成两个分支结点,其中左 分支的错误识别的数量大于右分支的数据量定义为T
left
=T1, T
right
=T2,左分支的错误识别的数量小于右分支的数据量定义为 T
left
=T2,T
right
=T1,且f
*
或者T
left
或者T
rifht
为空,RR<ε,将分支 结点标记为叶结点,并将其类别标记为T中样本数最多的类,f
*
或者 T
left
或者T
rifht
不为空,RR不小于ε需重新定义输入T
left
,F\{f
*
},k,θ和 T
righy
,其中F\{f
*
},k,θ为分支结点重新执行上述步骤,输出以node 为根结点的一棵RR决策树。
...

【技术保护点】

【技术特征摘要】
1.一种针对不平衡样本的机器学习分类方法,其特征在于,包括以下步骤:S1:下定义:根据相对危险度的非暴露组和暴露组的定义进行类似定义,并通过公式下定义;S2:定义输入:通过定义输入代入相应公式,得到对应取值及对应的损失函数值RR;S3:公式计算:根据RR公式计算训练集T损失函数值RR;S4:输出及处理:输出:f
*
,RR,并根据最优划分特征f
*
及其取值将训练集T划分为T1和T2。2.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法,其特征在于,所述S1中,通过公式进行定义,其中公式为其中公式为RR=p/q或者RR=(p(1

p))/(q(1

q)) (3)High_per=high/low (4)。3.根据权利要求2所述的一种针对不平衡样本的机器学习分类方法,其特征在于,通过根据相对危险度的非暴露组和暴露组的定义,采用相似方法定义了高精度组和低精度组,定义p为错误预测的样本数量与低精度预测样本总数的比值,变量q定义为不正确预测的样本数量与高精度预测样本总数的比值,通过此定义,推导出错误预测的样本数量+不正确预测的样本数量等于错误识别的样本个数,并在p和q的分子上加1。4.根据权利要求1所述的一种针对不平衡样本的机器学习分类方法,其特征在于,所述S2中,进行定义输入时训练集为T={(x1,y1),(x2,y2),...,(x
N
,y
N
)},特征集为F={f1,f2,...,f
d
},最少样本集为min_sample=k,损失函数阈值为threshold=ε,并以node为根节点,其中以node为根节点时特征集F为空或训练集T中样本关于特征集F中类别全部相同时需将node标记为叶结点,训练集T中的样本数量少于min_sample需将该标记为叶结点,且其类别标记为T中样本数最多的类。5.根据权利要求4所述的一种针对不平衡样本的机器学习分类方法,其特征在于,从特征集F中选择最优划分特征f
*
,并得到对应取值及对应的损失函数值RR,其中训练集为T={(x1,y1),(x2,y2),...,(x
N
,y
N
)},特征集为F={f1,f2,...,f
d
},阈值为θ1和θ2,且θ1<θ2。6....

【专利技术属性】
技术研发人员:单曙光
申请(专利权)人:玖特北京医学科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1