System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于动态多目标种子优化算法的不平衡数据集处理方法技术_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于动态多目标种子优化算法的不平衡数据集处理方法技术

技术编号:41108831 阅读:4 留言:0更新日期:2024-04-25 14:02
本发明专利技术涉及一种基于动态多目标种子优化算法的不平衡数据集处理方法,与现有技术相比解决了不平衡数据集问题求解性能差、效率低的缺陷。本发明专利技术包括以下步骤:原始不平衡数据集的分割;静态多目标优化算法的初始化;基于代理预测模型的初始种群构建;增量不平衡数据流的再平衡;基于全量不平衡数据集的性能评估。本发明专利技术拥有求解效果好,再平衡效率高的特点,可解决现有不平衡数据集问题中再平衡方案对不平衡数据集规模的限制,实现不平衡数据集的在线再平衡,以及对于再平衡方法参数值的快速定位。

【技术实现步骤摘要】

本专利技术涉及数据挖掘中不平衡数据集的处理方法,具体来说是一种基于动态多目标种子优化算法的不平衡数据集处理方法


技术介绍

1、在数据挖掘和机器学习领域,不平衡数据集是指在解决分类问题时每个类别的样本量不均衡的数据集,数据挖掘应用普遍存在数据不平衡问题。在大数据中只有一小部分是有价值的和用户感兴趣的,少数类通常代表目标类。数据集不平衡的影响主要集中在预测建模上,特别是针对样本较少的类别的预测,分类器会因为数据的不平衡性而使分类结果偏向优势类别,从而无法满足分类要求。在大多数情况下,少数类样本是探索和研究的主要目标,因此正确识别少数类样本比正确识别多数类样本更有价值。

2、现有的不平衡数据集问题的处理方法主要可分为过采样、欠采样和代价敏感学习三类,chawla等人提出了一种合成少数类样本过采样方法smote,然而简单地过采样可能会导致过拟合,并且容易引发大量的合成样本对于原始少数类样本的过度稀释;kubat等人提出了一种针对多数类的单边欠采样方法,然而简单地执行欠采样过程可能会丢失一些有价值的特征样本;在代价敏感学习中,tao等人提出了一种基于后验概率利用svm模型的求解方法,然而这类方法往往难以针对不同的不平衡数据集给出具体的代价矩阵,且无法生成随机选择参数对应的新数据集。

3、传统的再平衡方法通过仅仅使两个类的数量相等或使用单目标优化来实现,此时预处理方法的唯一目标是增加模型的可信度,通常会在失去控制的情况下大大降低准确度。现有的分类器通常是基于数据集的类别分布接近平衡的假设来设计的,因而可能会在大量的多数类样本中忽略少数类样本。由于少数类样本在整个数据集中所占的比例很小,因此从整体上看,错误分类的少数类样本对分类的准确性影响不大,这种高准确度的分类模型称为“伪准确度”,此时模型是不可靠的。

4、传统的基于贪婪搜索的监督学习算法通常被设计为包含不平衡数据集而不考虑类平衡比例。此外,大多数分类学习模型在设计时,由于训练数据的庞大数量以及缺乏来自少数样本的足够训练,所获得的训练模型通常存在过拟合问题,从而对稀有少数类测试集的识别能力有限。

5、同时,传统方法无法同时提升多个评价指标,即在抽样过程中,不平衡分类模型的某些性能得到了提高,同时也伴随着其他指标的降低。例如,虽然准确度在不平衡分类中失去了作用,但是在再平衡数据集中仍然是一个重要的指标。以往的研究忽视了准确性这一指标,而更多地关注衡量分类模型可靠性或一致性的指标。此外,对于不同的不平衡数据集,目前的采样技术的参数是不同的和不确定的,因此这些技术很难最大限度地发挥其效力。

6、因此,如何提高动态群体智能优化算法在不平衡数据集上的求解效率和效果,设计一种基于动态多目标种子优化算法的不平衡数据集处理方法,已经成为急需解决的技术问题。


技术实现思路

1、本专利技术的目的是为了解决现有技术中不平衡数据集问题求解性能差、效率低的缺陷,提供一种基于动态多目标种子优化算法的不平衡数据集处理方法来解决上述问题。

2、为了实现上述目的,本专利技术的技术方案如下:

3、一种基于动态多目标种子优化算法的不平衡数据集处理方法,包括以下步骤:

4、原始不平衡数据集的分割:将原始不平衡数据集划分成片段,形成数据流;

5、静态多目标优化算法的初始化:对静态多目标优化算法的种群和参数进行初始化设置;

6、基于代理预测模型的初始种群构建:使用自动编码器和增量随机森林分类器预测不平衡数据流到达时静态多目标优化算法的初始种群;

7、增量不平衡数据流的再平衡:基于先前数据流再平衡过程中的先验信息,藉由有用历史信息积累的代理预测模型引导当前不平衡数据流的再平衡处理;

8、基于全量不平衡数据集的性能评估:在全量不平衡数据集上综合评估动态多目标种子优化算法对于不平衡数据集问题的求解效果。

9、所述原始不平衡数据集的分割包括以下步骤:

10、加载原始不平衡数据集并将其划分为多个片段,每一段的大小符合下式的规律,

11、length(di)=i×length(d1),i=1,2,...,w,

12、其中,w为子数据集的数量,i是所划分的每一段子数据集对应的索引,di表示第i个子数据集,length(d1)为第1个子数据集的大小,length(di)为第i个子数据集的大小;

13、把整个不平衡数据集的处理过程描述为一个在线优化系统,在每个时间节点到达后分割后的子数据集被视为再平衡流程中连续到达的任务,从而得到不平衡数据流。

14、所述静态多目标优化算法的初始化包括以下步骤:

15、设定在静态多目标种子优化算法moboa中,单个种子个体的位置被表示为:

16、x={x1,x2,x3,...,xd}

17、其中,d是多目标优化问题的维度,xd为个体在第d维上的位置,x为单个种子个体的位置;

18、设定静态多目标优化算法首先在搜索范围内初始化一组种群个体p1,如下所示:

19、

20、其中,l是种群中的第l个个体,d是多目标优化问题的维度,rand(0,1)是[0,1]范围内的均匀分布随机发生器,rand(1,d)用于产生[0,1]范围内的1行d列的随机数,和是初始化个体xl在第j维的上界和下界,是个体xl在第j维的位置;

21、合成少数类样本过采样方法smote是对原始数据集进行再平衡的方法,其通过观察和评估少数类样本的空间结构特征,允许算法在数据集中制造额外的少数类数据,

22、和是每个决策变量的上界和下界,个体在搜索空间中的位置被编码为smote中n和k的参数值组合,其中,n为邻居数目,k为过采样率,即其中u∈[1,∞],k∈[1,min(size(p1),n)],p1是初始化的种群,size(p1)是初始化种群的规模,是种群p1中的每一个个体,υ和k分别是n和k在中的编码值,

23、reliableaccuracy作为适应度来评估所选择的解决方案,定义如下:

24、

25、其中,是种群p1中的解,是通过smote(n=υ,k=k)过采样后在子数据集上构建的分类器,fitness1为所选择解决方案的适应度,fitness_evaluation()是适应度评价函数;

26、初始化静态多目标种子优化算法moboa的参数,分别为种群规模popsize、迭代次数iteration、亲本种数nfth、子代分布模型的初始方差fc、全局搜索和局部搜索的比例nbp、交叉概率pc、方差概率pm;

27、其中,种群规模popsize和迭代次数iteration分别设置为25和100,对于亲本种数nfth,由于父种的数量是主种群加上辅助种群的数量,而辅助种群的数量等于目标数,所以nfth=m+1,m是目标数;

28、采用自适应方差,初始方差值fc设置为0.1,由于本文档来自技高网...

【技术保护点】

1.一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述原始不平衡数据集的分割包括以下步骤:

3.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述静态多目标优化算法的初始化包括以下步骤:

4.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述基于代理预测模型的初始种群构建包括以下步骤:

5.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述增量不平衡数据流的再平衡包括以下步骤:

6.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述基于全量不平衡数据集的性能评估包括以下步骤:

【技术特征摘要】

1.一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述原始不平衡数据集的分割包括以下步骤:

3.根据权利要求1所述的一种基于动态多目标种子优化算法的不平衡数据集处理方法,其特征在于,所述静态多目标优化算法的初始化包括以下步骤:

4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:张晓明谢乐乐程洪伟李俊田野
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1