一种基于自适应邻域大小的改进SMOTE方法及系统技术方案

技术编号:26690634 阅读:39 留言:0更新日期:2020-12-12 02:41
本发明专利技术涉及一种基于自适应邻域大小的改进SMOTE方法及系统,该方法及系统通过对每个少数数据使用不同的近邻值,在少数类样本及其邻近样本点组成的超矩形区域内,通过跟踪精度下降点自动确定邻域值大小,合成数据可以放置矩形区域之内,不用进行随机线性插值,因为所形成的超矩形区域中少数类占主导,在矩形区域中生成的合成样本将更加安全、合理。

【技术实现步骤摘要】
一种基于自适应邻域大小的改进SMOTE方法及系统
本专利技术涉及机器学习与数据挖掘
,具体涉及一种基于自适应邻域大小的改进SMOTE方法及系统。
技术介绍
随着信息技术的飞速发展,各行各业积累的数据数量呈爆炸式增长,类不平衡问题引起了广泛关注。类不平衡问题存在于许多应用领域中,例如生物医学诊断、多媒体数据分类、保险诈骗检测、垃圾邮件及网页的识别、信用卡及电信诈骗检测等,类不平衡问题中我们更关注的是少数类数据的识别率。目前,类不平衡学习方法主要可分为数据、特征、算法3个层面。数据层面的主要方法是基于数据分布的采样方法,近年来研究人员对过采样细分:基于距离的采样、基于数据清洗的采样、基于聚类的采样、基于进化的采样等,其中SMOTE(SyntheticMinorityOversamplingTechnique,合成少数类过采样技术)是最广泛引用和应用的过采样方法之一。数据层面的方法优点是平衡后的数据集适用于任意的分类器,所选模型是根据目标更易于解释的模型,缺点是难以将修改的数据分布和偏好相关联,且易造成过拟合。特征层面的本文档来自技高网...

【技术保护点】
1.一种基于自适应邻域大小的改进SMOTE方法,其特征在于,包括:/n步骤S1、输入少数类样本的训练样本集;/n步骤S2、判断少数类样本中,当前少数类点的序号i是否小于等于少数类样本点的总数目T;/n步骤S3、若i≤T,判断当前少数类点的近邻序号k是否小于等于所有近邻的总数目K,并跳转到步骤S4或S5;若i>T,在最终形成的共通区内合成新的少数样本,更新原始训练样本集,输出新的样本集;/n步骤S4、若k≤K,通过少数类近邻区域每次递增一个近邻区域,形成新的共通区;通过混淆矩阵计算新共通区的精度,将新的精度加入存储精度的向量P,k=k+1,返回步骤S3;/n步骤S5、若k>K,通过计算少数类样本...

【技术特征摘要】
1.一种基于自适应邻域大小的改进SMOTE方法,其特征在于,包括:
步骤S1、输入少数类样本的训练样本集;
步骤S2、判断少数类样本中,当前少数类点的序号i是否小于等于少数类样本点的总数目T;
步骤S3、若i≤T,判断当前少数类点的近邻序号k是否小于等于所有近邻的总数目K,并跳转到步骤S4或S5;若i>T,在最终形成的共通区内合成新的少数样本,更新原始训练样本集,输出新的样本集;
步骤S4、若k≤K,通过少数类近邻区域每次递增一个近邻区域,形成新的共通区;通过混淆矩阵计算新共通区的精度,将新的精度加入存储精度的向量P,k=k+1,返回步骤S3;
步骤S5、若k>K,通过计算少数类样本精度下降的最陡点,确认最终共通区,i=i+1,返回步骤S2。


2.根据权利要求1所述的方法,其特征在于,还包括:
假设数据集D={(xi,yi),i=1,...,n,yi∈{0,1}},S是少数类样本,T为少数类样本点的总数目,给出如下关键定义:
定义1:近邻区域regik:每个少数类点扩展到下一个少数类点的n维的超矩形,Si=(Si1,Si2,...,Sin)T是第i个少数类点,Nk=(Nk1,Nk2,...,Nkn)T是第k近邻;
定义2:共通区Comik:近邻区域的集合,Comik=Comi(k-1)∪regik,当regik扩展到下一个近邻,Comik区域也将增加一个;
定义3:精度pr:共通区内少数类样本占总样本的比重;
定义4:精度下降最陡点:精度向量p中下降最快的少数类样本点,即p导数最小值。


3.根据权利要求2所述的方法,其特征在于,所述步骤S1具体为:
输入训练集D={(xi,yi),i=1,...,n,yi∈{0,1}}。


4.根据权利要求3所述的方法,其特征在于,所述步骤S3中,若i≤T,具体为:

labelik=(y′1,y′2,...,y′n)T,xj∈D;
得到Comik的分类结果,如果xi∈Comik,则y′j=1,否则y′j=0;
通过Comik的混淆矩阵及x真正的标签值,计算精度pr,并将结果放p。


5.根据权利要求4所述的方法,其特征在于,所述步骤S5具体为:
根据p中pr的下降点得到SMOTE的邻域大小k=(k1,k2,...,kT),0≤T≤n。


6.根据权利要求5所述的方法,其特征在于,所述步骤S3中,若i>T,具体为:
...

【专利技术属性】
技术研发人员:徐文星王芳吴文通王瑶安欣舒马瑞
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1