一种优化混淆矩阵的双目标有界拒绝分类方法技术

技术编号:27452827 阅读:84 留言:0更新日期:2021-02-25 04:42
本发明专利技术公开了一种优化混淆矩阵的双目标有界拒绝分类方法,包括:(1)通过优化带拒绝机制的混淆矩阵确定拒绝分类器;(2)分别约束正类和负类的拒绝率,最小化假阳性率和假阴性率;(3)利用NSGA

【技术实现步骤摘要】
一种优化混淆矩阵的双目标有界拒绝分类方法


[0001]本专利技术涉及机器学习分类方法领域,具体涉及一种优化混淆矩阵的双目标有界拒绝分类方法。

技术介绍

[0002]拒绝分类是对不确定样本延迟分类的一种方法,对置信度低的不确定样本拒绝分类,能够减少可能的分类错误,降低错分代价。拒绝分类在实际应用中是存在的,如医生根据当前已知的患者信息无法提供有把握的决策时,为防止误诊或漏诊不会立即做出判断,而是推迟决策,通过收集患者更多信息或者专家会诊等,减少不确定性,既而提供准确决策。拒绝分类在这种安全关键领域中具有广泛应用。
[0003]两类拒绝分类中,分类规则如下所示:
[0004][0005]若样本x属于正类的置信得分s(x)不大于t1,该样本分类为负类(-);若大于t2,该样本分类为正类(+);否则,该样本拒绝分类(R)。为了确定两个拒绝阈值t1和t2(t1<t2),研究者提出了不同的拒绝分类方法。这些方法的主要思想是优化某个性能相关的指标,如总分类代价、总拒绝约束下的错误率或类依赖约束下的AUC(ROC曲线下的面积),通过求解无约束优化模型或约束优化模型得到拒绝阈值(Lin D,Sun L,Toh KA,et al.Twin SVM with a reject option through ROC curve[J].Journal of the Franklin Institute,2017,355(4):1710-1732;Pietraszek T.On the use of ROC analysis for the optimization of abstaining classifiers[J].Machine Learning,2007,68(2):137-169;Guan H,Zhang Y,Cheng H D,et al.BA2Cs:Bounded abstaining with two constraints of reject rates in binary classification[J].Neurocomputing,2019,357(SEP.10):125-134)。
[0006]这些拒绝分类方法只优化一个固定的综合指标,面对不同应用场景时鲁棒性差。当优化的指标恰是具体应用中需求的,这个分类方法能够提供较优的分类性能;若实际应用中使用的评估指标不是拒绝分类方法的优化指标,那么使用这个拒绝分类方法可能不能得到满意的分类结果。另外,实际应用中代价信息难以获得或估计,优化与代价相关的指标是有局限性的,且当代价信息改变时,需要重新训练拒绝分类器,计算效率降低。

技术实现思路

[0007]任何一个性能评估指标都可以由带拒绝机制的混淆矩阵(简称“拒绝混淆矩阵”,如表1所示)求得,由于拒绝混淆矩阵有四个自由度,至少需要优化四个基本指标,因此,本专利技术提供了一种优化混淆矩阵的双目标有界拒绝分类方法。
[0008]一种优化混淆矩阵的双目标有界拒绝分类方法,包括:
[0009](1)通过优化带拒绝机制的混淆矩阵确定拒绝分类器;
[0010](2)分别约束正类和负类的拒绝率,最小化假阳性率和假阴性率;
[0011](3)利用NSGA-II算法求解优化模型,得到帕累托最优解集;
[0012](4)根据不同的应用场景或条件,从帕累托最优解集中选择最佳拒绝分类器;
[0013](5)利用最佳拒绝分类器对待测样本进行分类,得到该样本的类别:正类、负类或拒绝分类。
[0014]本专利技术的优化混淆矩阵的双目标有界拒绝分类方法,优化模型如下:
[0015]min
t F(t)=(F1(t),F2(t))=(fpr(t),fnr(t)),
[0016][0017]其中:t表示二维实数空间R2中的拒绝阈值向量,fpr和fnr分别为假阳性率(false positive rate)和假阴性率(false negative rate),rpr和rnr分别为阳性拒绝率(rejected positive rate)和阴性拒绝率(rejected negative rate),p
max
和n
max
分别为该优化模型的超参数,值在[0,1]内。
[0018]表1两分类问题的带拒绝机制的混淆矩阵
[0019][0020]本专利技术提供的优化模型是多目标优化问题,采用经典的多目标进化算法NSGA-II进行求解。
[0021]利用NSGA-II算法求解优化模型的基本步骤包括:
[0022]1)采用实数编码的方式对种群中染色体进行初始化;
[0023]2)在验证集上计算每个染色体对应的拒绝混淆矩阵;
[0024]3)由拒绝混淆矩阵计算fpr和fnr,根据帕累托支配对种群中的染色体进行排序,称为“非支配排序”,输出前沿集;
[0025]4)计算同一前沿集中每个染色体的拥挤距离,并按照拥挤距离从大到小排序;
[0026]5)采用二进制锦标赛策略从种群中选择较小前沿和较大拥挤距离的染色体,得到新种群,称为“父代种群”;
[0027]6)采用模拟二进制交叉和多项式变异从父代种群中产生新种群,称为“子代种群”;
[0028]7)从父代种群与子代种群中选择较小前沿和较大拥挤距离的染色体,构成新种群,至此完成一轮迭代,回到步骤2)进行下一轮迭代。
[0029]利用NSGA-II算法求解该拒绝分类模型会得到帕累托最优解集。帕累托最优解集中每个解,即每个拒绝阈值向量(t1,t2)对应一个拒绝分类器,每个解关于帕累托最优解集是非支配的。
[0030]可以根据不同的应用场景或不同的使用条件,从帕累托最优解集中选择最合适的拒绝分类器:
[0031]1)若代价信息已知,选择总代价最小的拒绝分类器:帕累托解集中每个拒绝阈值向量(t1,t2)对应一个拒绝分类器,利用该拒绝分类器对验证集分类,可以得到拒绝混淆矩阵,从而计算每类中正确、错误以及拒绝分类的样本比例,按照下式计算总代价:
[0032]cost(t1,t2)=p(+)
·
CFN
·
fnr+p(-)
·
CTN
·
tnr
[0033]+p(+)
·
CTP
·
tpr+p(-)
·
CFP
·
fpr
[0034]+p(+)
·
CRP
·
rpr+p(-)
·
CRN
·
rnr
[0035]其中:p(+)和p(-)分别为验证集中正类和负类的先验概率,CTP、CTN、CFP、CFN、CRP和CRN分别为真阳性、真阴性、假阳性、假阴性、阳性拒绝和阴性拒绝的代价,tpr和tnr分别为真阳性率和真阴性率。每个拒绝阈值向量(t1,t2)对应一个总代价,选择其中代价最小的作为最优拒绝分类器。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化混淆矩阵的双目标有界拒绝分类方法,其特征在于,包括:(1)通过优化带拒绝机制的混淆矩阵确定拒绝分类器;(2)分别约束正类和负类的拒绝率,最小化假阳性率和假阴性率;(3)利用NSGA-II算法求解优化模型,得到帕累托最优解集;(4)根据不同的应用场景或条件,从帕累托最优解集中选择最佳拒绝分类器;(5)利用最佳拒绝分类器对待测样本进行分类,得到该样本的类别:正类、负类或拒绝分类。2.根据权利要求1所述的优化混淆矩阵的双目标有界拒绝分类方法,其特征在于,优化模型如下:min
t
F(t)=(F1(t),F2(t))=(fpr(t),fnr(t)),其中:t表示二维实数空间R2中的拒绝阈值向量,fpr和fnr分别为假阳性率和假阴性率,rpr和rnr分别为阳性拒绝率和阴性拒绝率,p
max
和n
max
分别为该优化模型的超参数,值在[0,1]内。3.根据权利要求2所述的优化混淆矩阵的双目标有界拒绝分类方法,其特征在于,利用NSGA-II算法求解优化模型的基本步骤包括:1)采用实数编码的方式对种群中染色体进行初始化;2)在验证集上计算每个染色体对应的拒绝混淆矩阵;3)由拒绝混淆矩阵计算fpr和fnr,根据帕累托支配对种群中的染色体进行排序,称为“非支配排序”,输出前沿集;4)计算同一前沿集中每个染色体的拥挤距离,并按照拥挤距离从大到小排序;5)采用二进制锦标赛策略从种群中选择较小前沿和较大拥挤距离的染色体,得到新种群,称为“父代种群”;6)采用模拟二进制交叉和多项式变异从父代种群中产生新种群,称为“子代种群”;7)从父代种群与子代种群中选择较小前沿和较大拥挤距离的染色体,构成新种群,至此完成一轮迭代,回到步骤2)进行下一轮迭代。4.根据权利要求3所述的优化混淆矩阵的双目标有界拒绝分类方法,其特征在于,帕累托最优解集中每个解,即每个拒绝阈值向量(t1,t2)对应一个拒绝分类器,每个解关于帕累托最优解集是非支配的。5.根据权利要求4所述的优化混淆矩...

【专利技术属性】
技术研发人员:管红娇张英涛承恒达唐降龙
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1