基于遗传算法的数据填补方法、装置、设备及存储介质制造方法及图纸

技术编号:33469413 阅读:10 留言:0更新日期:2022-05-19 00:47
本申请实施例涉及数据处理技术领域,具体涉及一种基于遗传算法的数据填补方法、装置、设备及存储介质,旨在提高缺失数据填补的填补质量。所述方法包括:读取缺失数据集;设置多条染色体,通过混沌映射和启发式信息对所述多条染色体进行初始化,得到多条初始化染色体;通过初始化染色体对缺失数据集进行数据填补以及特征选择,得到多个筛选后的数据集;对多个筛选后的数据集进行适应度评估,得到每条染色体的适应度值;根据每条染色体的适应度值,选择父本并生成后代染色体;迭代生成多代染色体,直至得到最优染色体;根据所述最优染色体,生成对应的数据填补模型;通过所述数据填补模型进行数据填补,得到数据填补结果。得到数据填补结果。得到数据填补结果。

【技术实现步骤摘要】
基于遗传算法的数据填补方法、装置、设备及存储介质


[0001]本申请实施例涉及数据处理
,具体而言,涉及一种基于遗传算法的数据填补方法、装置、设备及存储介质。

技术介绍

[0002]数据挖掘技术是一项热点技术,通过该技术可以从海量的数据中提取出有用的信息。数据挖掘通常需要使用到分类器,而分类器需要使用高质量的数据集进行训练,如果数据的质量太低,就会影响分类器的性能,影响数据挖掘的效果,提取到无用信息,忽略到有用信息。在获取数据集时,数据的采集、存储等阶段不可避免的会发生损耗,从而出现数据集中的数据缺失,数据缺失的情况不可避免存在于收集到的数据集中,如果直接忽略掉缺失的数据,可能会导致潜在的有价值信息的重大损失,因此需要对数据集进行数据填补。现有的数据填补方法通过基于距离的方法对数据进行填补,即通过寻找与缺失数据集中已有的特征距离相近的特征进行填补。
[0003]现有技术中使用基于距离的方法对数据进行填补,没有区分不同数据类型的特征,没有充分利用特征的分布和概率信息,使得数据趋于一致而丧失多样性,填补的数据也会出现偏差过大的情况,不能满足现有的数据挖掘对数据质量的要求。

技术实现思路

[0004]本申请实施例提供一种基于遗传算法的数据填补方法、装置、设备及存储介质,旨在提高缺失数据填补的填补质量。
[0005]本申请实施例第一方面提供一种基于遗传算法的数据填补方法,所述方法包括:
[0006]读取缺失数据集,所述缺失数据集中包含连续型数据与枚举型数据;
[0007]设置多条染色体,通过混沌映射和启发式信息对所述多条染色体进行初始化,得到多条初始化染色体;
[0008]基于所述多条初始化染色体中的每条初始化染色体,分别对所述缺失数据集进行数据填补,得到多个填补后的数据集;
[0009]对所述多个填补后的数据集进行特征选择,得到多个筛选后的数据集;
[0010]对所述多个筛选后的数据集进行适应度评估,得到所述多条初始化染色体中的每条初始化染色体的适应度值;
[0011]根据所述每条初始化染色体的适应度值,通过所述多条初始化染色体生成多条后代染色体;
[0012]迭代执行上述数据填补、适应度评估以及后代染色体生成步骤,当满足迭代退出条件时,退出迭代,得到最优染色体;
[0013]根据所述最优染色体,生成对应的数据填补模型;
[0014]通过所述数据填补模型进行数据填补,得到数据填补结果。
[0015]可选地,基于所述多条初始化染色体中的每条初始化染色体,分别对所述缺失数
据集进行数据填补,包括:
[0016]针对所述多条初始化染色体中的每条初始化染色体,使用染色体映射模型对所述初始化染色体进行映射,得到用于填补所述连续型数据的均值与标准差以及用于填补枚举型数据的取值概率;
[0017]根据所述均值与标准差生成正态分布模型,通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补;
[0018]根据所述取值概率,通过轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补。
[0019]可选地,对所述多个填补后的数据集进行特征选择,得到多个筛选后的数据集,包括:
[0020]针对所述多个填补后的数据集中的每个数据集,通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息,以及所述数据集中含缺失值特征的特征缺失率,得到该数据集中每个含缺失值特征的启发式信息;
[0021]将所述启发式信息大于预设启发式信息阈值的特征进行保留,将所述启发式信息小于预设启发式信息阈值的特征进行删除,得到所述筛选后的数据集。
[0022]可选地,对所述多个筛选后的数据集进行适应度评估,得到所述多条初始化染色体中的每条初始化染色体的适应度值,包括:
[0023]对于所述多个筛选后的数据集中的每个数据集,进行分类性能计算,得到分类性能计算结果;
[0024]将所述分类性能计算结果作为该数据集对应的初始化染色体的适应度值。
[0025]可选地,根据所述每条初始化染色体的适应度值,通过所述多条初始化染色体生成多条后代染色体,包括:
[0026]将所述多条初始化染色体按照其适应度值的大小进行依次排序,得到排序后的多条染色体;
[0027]按照轮盘赌方法从所述排序后的多条染色体中选择任意两条初始化染色体作为父本染色体;
[0028]根据所述父本染色体,得到所述后代染色体;
[0029]重复进行父本染色体选择以及后代染色体生成步骤,当所述后代染色体与所述初始化染色体的数量相同时,停止选择父本染色体,得到所述多条后代染色体。
[0030]可选地,根据所述父本染色体,得到所述后代染色体,包括:
[0031]使用交叉算子对所述父本染色体进行交叉运算,得到交叉后的染色体;
[0032]使用变异算子对所述交叉后的染色体进行染色体位点变异运算,得到所述后代染色体。
[0033]可选地,通过所述数据填补模型进行数据填补,得到数据填补结果,包括:
[0034]通过所述数据填补模型接收待填补的缺失数据集;
[0035]使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补,使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补,得到所述数据填补结果。
[0036]本申请实施例第二方面提供一种基于遗传算法的数据填补装置,所述装置包括:
[0037]缺失数据集读取模块,用于读取缺失数据集,所述缺失数据集中包含连续型数据
与枚举型数据;
[0038]染色体设置模块,用于设置多条染色体,通过混沌映射和启发式信息对所述多条染色体进行初始化,得到多条初始化染色体;
[0039]数据集填补模块,用于基于所述多条初始化染色体中的每条初始化染色体,分别对所述缺失数据集进行数据填补,得到多个填补后的数据集;
[0040]特征选择模块,用于对所述多个填补后的数据集进行特征选择,得到多个筛选后的数据集;
[0041]适应度评估模块,用于对所述多个筛选后的数据集进行适应度评估,得到所述多条初始化染色体中的每条初始化染色体的适应度值;
[0042]后代染色体生成模块,用于根据所述每条初始化染色体的适应度值,通过所述多条初始化染色体生成多条后代染色体;
[0043]最优染色体确定模块,用于迭代执行上述数据填补、适应度评估以及后代染色体生成步骤,当满足迭代退出条件时,退出迭代,得到最优染色体;
[0044]数据填补模型获得模块,用于根据所述最优染色体,生成对应的数据填补模型;
[0045]数据填补结果获得模块,用于通过所述数据填补模型进行数据填补,得到数据填补结果。
[0046]可选地,所述数据集填补模块包括:
[0047]染色体映射子模块,用于针对所述多条初始化染色体中的每条初始化染色体,使用染色体映射模型对所述初始化染色体进行映射,得到用于填补所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于遗传算法的数据填补方法,其特征在于,所述方法包括:读取缺失数据集,所述缺失数据集中包含连续型数据与枚举型数据;设置多条染色体,通过混沌映射和启发式信息对所述多条染色体进行初始化,得到多条初始化染色体;基于所述多条初始化染色体中的每条初始化染色体,分别对所述缺失数据集进行数据填补,得到多个填补后的数据集;对所述多个填补后的数据集进行特征选择,得到多个筛选后的数据集;对所述多个筛选后的数据集进行适应度评估,得到所述多条初始化染色体中的每条初始化染色体的适应度值;根据所述每条初始化染色体的适应度值,通过所述多条初始化染色体生成多条后代染色体;迭代执行上述数据填补、适应度评估以及后代染色体生成步骤,当满足迭代退出条件时,退出迭代,得到最优染色体;根据所述最优染色体,生成对应的数据填补模型;通过所述数据填补模型进行数据填补,得到数据填补结果。2.根据权利要求1所述的方法,其特征在于,基于所述多条初始化染色体中的每条初始化染色体,分别对所述缺失数据集进行数据填补,包括:针对所述多条初始化染色体中的每条初始化染色体,使用染色体映射模型对所述初始化染色体进行映射,得到用于填补所述连续型数据的均值与标准差以及用于填补枚举型数据的取值概率;根据所述均值与标准差生成正态分布模型,通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补;根据所述取值概率,通过轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补。3.根据权利要求1所述的方法,其特征在于,对所述多个填补后的数据集进行特征选择,得到多个筛选后的数据集,包括:针对所述多个填补后的数据集中的每个数据集,通过所述数据集中的含缺失值特征与所述数据集的标签之间的互信息,以及所述数据集中含缺失值特征的特征缺失率,得到该数据集中每个含缺失值特征的启发式信息;将所述启发式信息大于预设启发式信息阈值的特征进行保留,将所述启发式信息小于预设启发式信息阈值的特征进行删除,得到所述筛选后的数据集。4.根据权利要求1所述的方法,其特征在于,对所述多个筛选后的数据集进行适应度评估,得到所述多条初始化染色体中的每条初始化染色体的适应度值,包括:对于所述多个筛选后的数据集中的每个数据集,进行分类性能计算,得到分类性能计算结果;将所述分类性能计算结果作为该数据集对应的初始化染色体的适应度值。5.根据权利要求1所述的方法,其特征在于,根据所述每条初始化染色体的适应度值,通过所述多条初始化染色体生成多条后代染色体,包括:将所述多条初始化染色体按照其适...

【专利技术属性】
技术研发人员:刘艺郑奇斌秦伟李庚松刁兴春
申请(专利权)人:北京大数据先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1