一种基于自适应权重学习的补子空间表示非均衡分类方法技术

技术编号:36094664 阅读:19 留言:0更新日期:2022-12-24 11:12
本发明专利技术公开了一种基于自适应权重学习的补子空间表示非均衡分类方法,应用于数据分类技术领域,用于解决现有的分类技术无法高精度识别少数类样本的问题,方法包括以下步骤:对非均衡数据集进行预处理、获取每个训练样本的权重、基于补子空间计算得到非均衡分类模型、对非均衡分类模型求解得到最优表示系数、对测试样本集中测试样本的标签进行分类。本发明专利技术在协同表示模型中引入了由补子空间诱导的正则项,并且根据原始数据的类间和类内密度信息自适应地获取每个训练样本的权重,有效剔除了噪声以及离群点对分类结果的影响,为少数类样本赋予更大的权重,解决了现有的分类方法无法对少数类准确分类的缺陷。少数类准确分类的缺陷。少数类准确分类的缺陷。

【技术实现步骤摘要】
一种基于自适应权重学习的补子空间表示非均衡分类方法


[0001]本专利技术涉及数据分类
,更具体的说是涉及一种基于自适应权重学习的补子空间表示非均衡分类方法。

技术介绍

[0002]现实生活中欺诈检测、网络入侵、信用风险识别等众多领域涉及到非均衡分类。目前的分类技术高度依赖数据的均衡分布,对少数类的识别率总是不能取得令人满意的结果。实际上少数类的误分类成本更高,例如,在信用评估中,信用差的用户远远少于信用好的用户,如果分类错误,可能造成银行贷款资金的重大损失。因此,在实际应用中,提高少数类样本的识别精度至关重要。
[0003]现有的非均衡分类方法可以大致分为基于算法层面和基于数据层面的方法。基于数据层面的方法主要是通过对少数类样本进行欠采样,对多数类样本采用过采样的方法使原本的非均衡数据集均衡化。但是,这些数据层面的方法都会对原始数据造成损害,并不会显著提高最终的识别精度。算法层面的方法比数据层面方法的性能更好,但是需要仔细的调整参数以获得最佳的分类性能。在众多算法层面的方法中,协同表示分类方法(Collaborative rep本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自适应权重学习的补子空间表示非均衡分类方法,其特征在于,包括以下步骤:S1、对总类别数为N的非均衡数据集进行预处理,获得训练样本集H以及测试样本集;S2、基于密度获取训练样本集H中每个训练样本的权重;S3、根据每个训练样本的权重,基于补子空间计算得到非均衡分类模型;S4、对非均衡分类模型求解得到最优表示系数;S5、根据最优表示系数的重构误差对测试样本集中测试样本的标签进行分类。2.根据权利要求1所述的一种基于自适应权重学习的补子空间表示非均衡分类方法,其特征在于,S1具体为:S11、通过交叉验证法将总类别数为N的非均衡数据集随机分为z份,选择其中e份作为原始训练集,f份作为原始测试集,e+f=z;S12、将e份原始训练集和f份原始测试集随机交叉验证g次,得到g组原始训练样本集和g组原始测试样本集;S13、将g组原始测试样本集和g组原始训练样本集转化为列向量,进行归一化处理,得到测试样本集和训练样本集。3.根据权利要求2所述的一种基于自适应权重学习的补子空间表示非均衡分类方法,其特征在于,S2具体为:S21、获取每一类训练样本的个数M
ik
,M
ik
为第i个样本所属类别k中的样本总数,每个训练样本的初步权重为S22、获取训练样本d
i
在第n类训练样本集中前m个近邻样本的距离和d
i
在剩余训练样本集中前q个近邻样本的距离S23、计算训练样本d
i
在第n类训练样本集和剩余训练样本集中的密度:在第n类训练样本集和剩余训练样本集中的密度:S24、根据类内密度和类间密度计算混合密度:其中θ为调节类内类间距离权重的平衡参数;S25、将每个训练样本的权重密度进行归一化:与训练样本所属类别的样本总数相结合,d
i
的权重为训练样本的权重矩阵为:
4.根据权利要求3所述的一种基于自适应权重学习的补子空间表示非均衡分类方法,其特征在于,补子空间计算具体为:E

E
n
为E
n
的补子空间,式中E=span{H}表示由训练样本集H生成的全空间,E<...

【专利技术属性】
技术研发人员:李艳婷王帅刘岩金军委陶红伟朱付保
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1