System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于蚁狮优化的缺失不平衡数据多分类方法和设备技术_技高网

一种基于蚁狮优化的缺失不平衡数据多分类方法和设备技术

技术编号:41221886 阅读:3 留言:0更新日期:2024-05-09 23:41
本申请提供了一种基于蚁狮优化的缺失不平衡数据多分类方法和设备,该方法包括:基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码,基于第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码,基于第一编码和各个第二编码生成多个迭代编码,基于蚁狮优化算法,从多个迭代编码中筛选得到适应度最大的目标迭代编码,从分类器库中抽取目标迭代编码对应的分类器进行组合,得到目标分类器群,基于目标分类器群识别第一待分类数据集的类别,能够根据待识别数据的特征类型生成多个迭代编码,采用蚁狮优化算法筛选最优迭代编码并生成相应的分类器群进行目标场景下的数据分类,提升了分类的灵活性和分类效果的稳定性。

【技术实现步骤摘要】

本申请涉及数据处理,特别是一种基于蚁狮优化的缺失不平衡数据多分类方法和设备


技术介绍

1、在大数据兴起的浪潮中,数据规模大幅增长,每日产生的数据量已经从pb、eb级迅速跃升至zb级,甚至是yb级。其中,不平衡性是大量数据的重要特征,不平衡数据中的少数类数据包含的信息较少,这使得算法对该类样本特征的学习和识别较为困难。

2、相关技术中,可以通过基于分解的方法对不平衡数据进行分类。基于分解的方法是将多分类问题分解为多个二分类问题,然后逐次求解。在每个二分类问题中都采取固定分类方法进行分类。

3、但是上述方法灵活性较低,在不同数据集上的分类效果差异较大。


技术实现思路

1、鉴于上述问题,本申请实施例提供了一种基于蚁狮优化的缺失不平衡数据多分类方法、装置、电子设备和可读存储介质,以便克服上述问题或者至少部分地解决上述问题。

2、本申请实施例的第一方面,提供了一种基于蚁狮优化的缺失不平衡数据多分类方法,所述方法包括:

3、基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码;

4、基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码;

5、基于所述第一编码和各个所述第二编码生成多个迭代编码;

6、基于蚁狮优化算法,从所述多个迭代编码中筛选得到适应度最大的目标迭代编码;

7、从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合,得到目标分类器群;p>

8、基于所述目标分类器群识别所述第一待分类数据集的类别。

9、可选地,所述基于目标场景下的第一待分类数据集的缺失数据个数生成至少一个第一编码,包括:

10、确定所述第一待分类数据集中的缺失位置对应的特征类型;

11、基于所述第一待分类数据集的缺失数据个数和所述特征类型生成至少一个第一编码。

12、可选地,所述方法还包括:

13、在所述目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下,采用合成少数过采样算法生成新的样本数据并加入所述第一待分类数据集。

14、可选地,所述基于蚁狮优化算法,从所述多个迭代编码中筛选得到适应度最大的目标迭代编码,包括:

15、在蚁狮优化算法的迭代过程中,采用一致性检验指标算法计算蚂蚁和蚁狮的适应度;所述蚂蚁和所述蚁狮按蚁狮优化算法从所述迭代编码中选择。

16、可选地,所述基于所述目标分类器群识别所述第一待分类数据集的类别,包括:

17、在所述特征类型为离散类型的情况下,基于不重复的特征值的取值总个数,按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间;其中,每个取值区间对应一个填补特征值;

18、基于所述第一编码与所述取值区间的对应关系生成离散类型的填补映射;

19、基于所述第一编码和所述填补映射确定所述第一编码对应的填补特征值;

20、将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置,得到第二待分类数据集;

21、基于所述目标分类器群识别所述第二待分类数据集的类别。

22、可选地,所述取值区间的下限值的大小与所述填补特征值的大小正相关。

23、可选地,所述基于所述目标分类器群识别所述第一待分类数据集的类别,包括:

24、在所述特征类型为连续类型的情况下,基于所述第一编码、所述第一待分类数据集中的最大特征值和第一待分类数据集中的最小特征值,计算填补特征值;

25、将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置,得到第二待分类数据集;

26、基于所述目标分类器群识别所述第二待分类数据集的类别。

27、可选地,所述基于所述第一编码、所述第一待分类数据集中的最大特征值和所述第一待分类数据集中的最小特征值,计算填补特征值,包括:

28、将所述最大特征值和最小特征值之差与所述第一编码相乘,得到第一特征值;

29、将所述第一特征值加上所述最小特征值,得到所述填补特征值。

30、可选地,所述目标场景包括:网络新闻数据的分类识别场景和医学图像数据的分类识别场景中的至少一个。

31、第二方面,本申请提供了一种基于蚁狮优化的缺失不平衡数据多分类装置,所述装置包括:

32、第一生成模块,用于基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码;

33、第二生成模块,用于基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码;

34、第三生成模块,用于基于所述第一编码和各个所述第二编码生成多个迭代编码;

35、优化模块,用于基于蚁狮优化算法,从所述多个迭代编码中筛选得到适应度最大的目标迭代编码;

36、第四生成模块,用于从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合,得到目标分类器群;

37、分类识别模块,用于基于所述目标分类器群识别所述第一待分类数据集的类别。

38、可选地,所述第一生成模块,包括:

39、第一确定子模块,用于确定所述第一待分类数据集中的缺失位置对应的特征类型;

40、第一生成子模块,用于基于所述第一待分类数据集的缺失数据个数和所述特征类型生成至少一个第一编码。

41、可选地,所述装置还包括:

42、过采样模块,用于在所述目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下,采用合成少数过采样算法生成新的样本数据并加入所述第一待分类数据集。

43、可选地,所述优化模块,包括:

44、第一计算子模块,用于在蚁狮优化算法的迭代过程中,采用一致性检验指标算法计算蚂蚁和蚁狮的适应度;所述蚂蚁和所述蚁狮按蚁狮优化算法从所述迭代编码中选择。

45、可选地,所述分类识别模块,包括:

46、划分子模块,用于在所述特征类型为离散类型的情况下,基于不重复的特征值的取值总个数,按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间;其中,每个取值区间对应一个填补特征值;

47、第二生成子模块,用于基于所述第一编码与所述取值区间的对应关系生成离散类型的填补映射;

48、第二确定子模块,用于基于所述第一编码和所述填补映射确定所述第一编码对应的填补特征值;

49、第一填补子模块,用于将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置,得到第二待分类数据集;

50、第一识别子模块基于所述目标分类器群识别所述第二待分类数据集的类别。

51、可选地,所述取值区间的下限值的大小与所述填补特征值的大小正相关。

52、可选地,所述分类识别模块,包括:

53、第二计算子模块,用于在所本文档来自技高网...

【技术保护点】

1.一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于目标场景下的第一待分类数据集的缺失数据个数生成至少一个第一编码,包括:

3.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于蚁狮优化算法,从所述多个迭代编码中筛选得到适应度最大的目标迭代编码,包括:

5.根据权利要求2所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于所述目标分类器群识别所述第一待分类数据集的类别,包括:

6.根据权利要求5所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述取值区间的下限值的大小与所述填补特征值的大小正相关。

7.根据权利要求2所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于所述目标分类器群识别所述第一待分类数据集的类别,包括:

8.根据权利要求7所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于所述第一编码、所述第一待分类数据集中的最大特征值和所述第一待分类数据集中的最小特征值,计算填补特征值,包括:

9.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述目标场景包括:网络新闻数据的分类识别场景和医学图像数据的分类识别场景中的至少一个。

10.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至9任意一项所述的基于蚁狮优化的缺失不平衡数据多分类方法。

...

【技术特征摘要】

1.一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于目标场景下的第一待分类数据集的缺失数据个数生成至少一个第一编码,包括:

3.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于蚁狮优化算法,从所述多个迭代编码中筛选得到适应度最大的目标迭代编码,包括:

5.根据权利要求2所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述基于所述目标分类器群识别所述第一待分类数据集的类别,包括:

6.根据权利要求5所述的一种基于蚁狮优化的缺失不平衡数据多分类方法,其特征在于,所述取值区...

【专利技术属性】
技术研发人员:刘艺郑奇斌李庚松杨国利李翔史殿习刁兴春
申请(专利权)人:北京大数据先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1