【技术实现步骤摘要】
一种基于自适应邻域大小的改进SMOTE方法及系统
本专利技术涉及机器学习与数据挖掘
,具体涉及一种基于自适应邻域大小的改进SMOTE方法及系统。
技术介绍
随着信息技术的飞速发展,各行各业积累的数据数量呈爆炸式增长,类不平衡问题引起了广泛关注。类不平衡问题存在于许多应用领域中,例如生物医学诊断、多媒体数据分类、保险诈骗检测、垃圾邮件及网页的识别、信用卡及电信诈骗检测等,类不平衡问题中我们更关注的是少数类数据的识别率。目前,类不平衡学习方法主要可分为数据、特征、算法3个层面。数据层面的主要方法是基于数据分布的采样方法,近年来研究人员对过采样细分:基于距离的采样、基于数据清洗的采样、基于聚类的采样、基于进化的采样等,其中SMOTE(SyntheticMinorityOversamplingTechnique,合成少数类过采样技术)是最广泛引用和应用的过采样方法之一。数据层面的方法优点是平衡后的数据集适用于任意的分类器,所选模型是根据目标更易于解释的模型,缺点是难以将修改的数据分布和偏好相关联,且易造成过拟合 ...
【技术保护点】
1.一种基于自适应邻域大小的改进SMOTE方法,其特征在于,包括:/n步骤S1、输入少数类样本的训练样本集;/n步骤S2、判断少数类样本中,当前少数类点的序号i是否小于等于少数类样本点的总数目T;/n步骤S3、若i≤T,判断当前少数类点的近邻序号k是否小于等于所有近邻的总数目K,并跳转到步骤S4或S5;若i>T,在最终形成的共通区内合成新的少数样本,更新原始训练样本集,输出新的样本集;/n步骤S4、若k≤K,通过少数类近邻区域每次递增一个近邻区域,形成新的共通区;通过混淆矩阵计算新共通区的精度,将新的精度加入存储精度的向量P,k=k+1,返回步骤S3;/n步骤S5、若k>K ...
【技术特征摘要】
1.一种基于自适应邻域大小的改进SMOTE方法,其特征在于,包括:
步骤S1、输入少数类样本的训练样本集;
步骤S2、判断少数类样本中,当前少数类点的序号i是否小于等于少数类样本点的总数目T;
步骤S3、若i≤T,判断当前少数类点的近邻序号k是否小于等于所有近邻的总数目K,并跳转到步骤S4或S5;若i>T,在最终形成的共通区内合成新的少数样本,更新原始训练样本集,输出新的样本集;
步骤S4、若k≤K,通过少数类近邻区域每次递增一个近邻区域,形成新的共通区;通过混淆矩阵计算新共通区的精度,将新的精度加入存储精度的向量P,k=k+1,返回步骤S3;
步骤S5、若k>K,通过计算少数类样本精度下降的最陡点,确认最终共通区,i=i+1,返回步骤S2。
2.根据权利要求1所述的方法,其特征在于,还包括:
假设数据集D={(xi,yi),i=1,...,n,yi∈{0,1}},S是少数类样本,T为少数类样本点的总数目,给出如下关键定义:
定义1:近邻区域regik:每个少数类点扩展到下一个少数类点的n维的超矩形,Si=(Si1,Si2,...,Sin)T是第i个少数类点,Nk=(Nk1,Nk2,...,Nkn)T是第k近邻;
定义2:共通区Comik:近邻区域的集合,Comik=Comi(k-1)∪regik,当regik扩展到下一个近邻,Comik区域也将增加一个;
定义3:精度pr:共通区内少数类样本占总样本的比重;
定义4:精度下降最陡点:精度向量p中下降最快的少数类样本点,即p导数最小值。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1具体为:
输入训练集D={(xi,yi),i=1,...,n,yi∈{0,1}}。
4.根据权利要求3所述的方法,其特征在于,所述步骤S3中,若i≤T,具体为:
labelik=(y′1,y′2,...,y′n)T,xj∈D;
得到Comik的分类结果,如果xi∈Comik,则y′j=1,否则y′j=0;
通过Comik的混淆矩阵及x真正的标签值,计算精度pr,并将结果放p。
5.根据权利要求4所述的方法,其特征在于,所述步骤S5具体为:
根据p中pr的下降点得到SMOTE的邻域大小k=(k1,k2,...,kT),0≤T≤n。
6.根据权利要求5所述的方法,其特征在于,所述步骤S3中,若i>T,具体为:
...
【专利技术属性】
技术研发人员:徐文星,王芳,吴文通,王瑶,安欣舒,马瑞,
申请(专利权)人:北京石油化工学院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。