一种基于数据分区混合采样的不平衡集成分类方法技术

技术编号:24011647 阅读:88 留言:0更新日期:2020-05-02 01:56
本发明专利技术实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。

An unbalanced integrated classification method based on data partition and mixed sampling

【技术实现步骤摘要】
一种基于数据分区混合采样的不平衡集成分类方法
本专利技术涉及机器学习领域解决类别不平衡的分类方法,尤其涉及一种基于数据分区混合采样的不平衡集成分类方法。
技术介绍
分类问题成为机器学习中的热点问题,在许多应用领域中承担着数据分析和预测的角色。对于类别不平衡,各类别的数据分布不均匀,一类或几类(少数类)样本包含少量数据而其他类(多数类)样本包含大量数据。如果给定类别不平衡的训练集,那么很难训练出有效的分类模型,这种问题称为不平衡分类问题。已经提出了许多方法解决这类问题,主要分为数据级方法、算法级方法以及数据处理与算法相结合的方法。数据层面主要包括对少数类进行过采样,对多数类进行欠采样,以及结合使用两种技术(混合采样)。过采样通过增加少数类样本进行数据平衡,在不平衡度较高的分类问题中少数类的预测准确率将会明显提升,但可能生成不正确和不必要的少数类,产生过拟合问题;欠采样通过减少多数类样本使数据达到平衡,可能丢失有用的样本信息;混合采样是一种过采样和欠采样相结合的方法,有助于提升模型的泛化能力并降低过拟合的可能。算法层面主要包括成本敏感学习、本文档来自技高网...

【技术保护点】
1.一种基于数据分区混合采样的不平衡集成分类方法,其特征在于,所述方法步骤包括:/n(1)根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;/n(2)对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;/n(3)构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。/n

【技术特征摘要】
1.一种基于数据分区混合采样的不平衡集成分类方法,其特征在于,所述方法步骤包括:
(1)根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;
(2)对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;
(3)构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。


2.根据权利要求1所述的方法,其特征在于,根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样,具体说明如下:给定不平衡训练集D,首先将训练集D划分为多数类集Dmaj和少数类集Dmin,定义边界区Dborder、少数类噪声区Ddanger-、少数类安全区Dsafe-、多数类安全区Dsafe+并初始化四个区域为空集,+表示多数类样本,-表示少数类样本,然后遍历少数类集Dmin,少数类集Dmin包括少数类样本xi,i=1,2,...,Nmin,Nmin为少数类集样本数目,通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目Ni-,i=1,2,...,Nmin,其中k=5,并将邻居点中多数类样本存储到边界区Dborder中,计算少数类邻域中的多数类占比如果Γ=0,将该少数类样本加入到少数类噪声区Ddanger-;如果Γ∈(0,1),将该少数类样本及其邻域中多数类样本加入到边界区Dborder;如果Γ=1,将该少数类样本加入到少数类安全区Dsafe-;剩余训练集D的样本加入到多数类安全区Dsafe+,训练集D剔除少数类噪声区Ddanger-获得过滤集Dfilter,统计边界区Dborder的样本数目Nborder,包括少数类样本数目m和多数类样本数目n,在少数类样本xi中找出属于边界区Dborder的少数类样本xborder_i,i=1,2,...,m,统计每个xborder_i邻域中多数类样本个数Ni+,i=1,2,...,m,计算边界区域需要合成的样本数G=(m+n)×b-m,b∈[0.5,1],其中b为合成比例因子,取b=1时,合成后少数类样本数目和多数类样本数目保持平衡,其数目为原来总样本个数,对于每个边界区少数类样本xborder_i,计算k个近邻样本点中属于多数类样本的比例,记作根据每...

【专利技术属性】
技术研发人员:高欣任昺何杨李康生井潇纪维佳查森王锋
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1