The invention discloses an over-sampling method with Heilinger distance as a reference standard. Pseudo-random selection of a sample point in a small class as a reference point, SMOTE technology is used to synthesize the sample points. In the process of synthesizing the sample points, the Heilinger distance matrix is formed by calculating the Heilinger distance between the reference point and other classes, and the minimum value of the column vector of Heilinger distance matrix is calculated. The sample points generated each time are separately placed in the small class, and the small classes of the reference points and other classes are calculated. Class A Hailinger distance matrix is formed to calculate the minimum of column vectors of the Heilinger distance matrix. Comparing the minimum values of the two Heilinger distances to judge the quality of the synthesized sample points. The method can improve the quality of new synthetic sample points, avoid the overlapping problem of sample points, achieve the purpose of improving the quality of new synthetic sample points under the condition of minimizing the impact on other classes, and is suitable for improving the fitting and generalization of sample points synthesized by over-sampling technology under specific second and multi-class unbalanced data sets.
【技术实现步骤摘要】
海林格距离为参考标准的过采样的方法
本专利技术涉及特定数据集下不平衡学习中过采样
,具体涉及海林格距离为参考标准的过采样的方法。
技术介绍
不平衡数据(ImbalanceData)即数据集类别的样本不均衡。以二分类问题为例,数据集中的多数类与少数类样本的比例大于不平衡率IR(ImbalanceRatio)时,这样的数据被称为不平衡数据。通常认为IR等于1.45或1.5的数据集为平衡的数据集。数据集的不平率例如大类样本数量有50个,小类样本数量有20个,则此时的数据即不平衡数据。不平衡学习是在不平衡数据下对数据进行处理,使得分类预测能够得到更高的准确度。不平衡学习的方法有很多,例如,代价敏感(Cost-Sensitive)、采样方法(SamplingMethod)、集成学习(EnsembleLearning)等等。过采样(Oversampling)是不平衡学习中采样方法的一种,过采样主要是增加少数类的样本数量。即从少数类集合中随机选取样本点为参考点,以参考点为基础合成新的样本点,将新的样本点加入小类中,使小类的数量增加。SyntheticMinorityOve ...
【技术保护点】
1.一种海林格距离为参考标准的过采样的方法,其特征在于,海林格为标准的判断具体步骤为:(1)计算合成样本点之前参考点所在小类和其它各个类之间的海林格距离,形成距离矩阵M1;(2)取M1矩阵中每一列的最小值,形成行向量R1;(3)合成新的样本点,将每次新合成的样本点单独加入参考点所在小类中,形成新的小类C1,计算C1和其它各个类之间的海林格距离,形成距离矩阵M2;(4)取M2矩阵中每一列的最小值,形成行向量R2;(5)比较R1和R2大小来判定新产生样本点的质量。
【技术特征摘要】
1.一种海林格距离为参考标准的过采样的方法,其特征在于,海林格为标准的判断具体步骤为:(1)计算合成样本点之前参考点所在小类和其它各个类之间的海林格距离,形成距离矩阵M1;(2)取M1矩阵中每一列的最小值,形成行向量R1;(3)合成...
【专利技术属性】
技术研发人员:董明刚,姜振龙,敬超,
申请(专利权)人:桂林理工大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。