【技术实现步骤摘要】
一种在复杂噪声环境下的高度不平衡分类方法
所属
[0001]本专利技术涉及在复杂噪声环境下的不平衡分类应用
,具体涉及一种在复杂噪声环境下的高度不平衡分类方法。
技术介绍
[0002]高度不平衡分类问题是指数据集中多数类样本与少数类样本的比值大于9的分类问题。它在日常生活中一直都很常见,如在金融风控项目中,逾期的用户比例总是远远小于未逾期的用户比例。所以,会导致模型偏向多数类样本的贡献,从而忽略少数类样本所富含的丰富信息,特别是混有噪声的高度不平衡数据会使得模型预测错误。但是现有方法都只考虑到单个噪声情形下的高度不平衡问题,与现实世界中噪声大都是复杂噪声相矛盾。因此,本专利技术提出了首个关于复杂噪声结合高度不平衡数据的处理模型。
[0003]复杂噪声一般是由服从不同概率分布的多种噪声叠加而成。针对复杂噪声的处理,现有的方法有:如出自《IEEE图像处理汇刊》的论文:He et al.【He R,Zhang Y,Sun Z,et al.Robust subspace clustering with complex n ...
【技术保护点】
【技术特征摘要】
1.一种在复杂噪声环境下的高度不平衡分类方法,其特征在于,包括以下步骤:步骤1):设有一个带复杂噪声的高度不平衡数据集D,其中M表示多数类样本,N表示少数类样本,首先通过PCA把D降维到三维空间中,然后将这个三维空间划分为两个相同大小的相连接的正方体,同时判断降维之后的样本点属于哪一个正方体,进而将样本点划分到正确的正方体中;步骤2):对划分后的每个正方体内部的特征空间进行随机划分为k个分区,k的计算方法为:并从划分后每个分区中选择一个分区向量来表示其特征,分区向量s
i
的计算方法为:其中,i为随机分区的序号,x
m
、x
n
分别表示分区i中多数类样本M
i
与少数类样本N
i
距离最近的多数类样本点和少数类样本点;步骤3):引入非安全样本点来携带样本特征与噪声信息,非安全样本点指数据集D中的一个少数类样本x
【专利技术属性】
技术研发人员:陈芳,陈彭,姜磊,莫璐,张鋆,徐建波,赵肄江,
申请(专利权)人:湖南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。